# 양방향 LSTM
### 앞서 배운 RNN와 LSTM은 데이터가 순차적으로 처리되기 때문에 직전의 정보만 활용하므로 문장이 길어질 수록 성능이 저하된다. 따라서 역방향 처리를 위해 기존 LSTM에서 역방향 LSTM을 추가해 양방향 LSTM을 구성하여 길이가 길어져도 정보 손실 없이 처리가 가능하도록 한다.
## 랜덤으로 시퀀스를 생성해 임의의 분류 기존에 맞는 클래스를 예측하는 양방향 LSTM 모델 예제 입니다.

In [2]:
import numpy as np
from random import random
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Bidirectional, LSTM, Dense, TimeDistributed

In [10]:
# 시퀀스 생성
def get_sequence(n_timesteps):
    # 0~1 사이의 랜덤 시퀀스 생성
    X = np.array([random() for _ in range(n_timesteps)])

    # 클래스 분류 기준
    limit = n_timesteps / 4.0

    # 누적합 시퀀스에서 클래스 결정
    # 누적합 항목이 limit보다 작은 경우 0, 아닌 경우 1로 분류
    y = np.array([0 if x < limit else 1 for x in np.cumsum(X)])

    # LSTM 입력을 위해 3차원 텐서 형태로 변경
    X = X.reshape(1, n_timesteps, 1)
    y = y.reshape(1, n_timesteps, 1)
    return X, y

In [11]:
# 하이퍼파라미터 정의
n_units = 20
n_timesteps = 4

In [12]:
# 양방향 LSTM 모델 정의
model = Sequential()
model.add(Bidirectional(LSTM(n_units, return_sequences=True, input_shape=(n_timesteps, 1))))
# Bidirectional : LSTM을 양방향으로 설정하기 위함
# return_sequences = True : 정방향, 역방향 LSTM 계층에 모든 출력값을 연결해야 하기 때문에 반드시 True로 설정
model.add(TimeDistributed(Dense(1, activation='sigmoid')))
# TimeDistributed : 3차원 텐서를 입력받을 수 있게 확장함
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])
# 이 모델은 0 또는 1을 예측하는 이항 분류 모델이므로 활성화 함수로 시그모이드, 손실 함수로 binary_crossentropy 사용함

In [13]:
# 모델 학습
# 에포크마다 학습 데이터를 생성해서 학습
for epoch in range(1000):
    X, y = get_sequence(n_timesteps)
    model.fit(X, y, epochs=1, batch_size=1, verbose=2)

1/1 - 0s - loss: 0.7103 - accuracy: 0.5000
1/1 - 0s - loss: 0.7142 - accuracy: 0.0000e+00
1/1 - 0s - loss: 0.6941 - accuracy: 0.5000
1/1 - 0s - loss: 0.7259 - accuracy: 0.0000e+00
1/1 - 0s - loss: 0.7008 - accuracy: 0.5000
1/1 - 0s - loss: 0.7054 - accuracy: 0.5000
1/1 - 0s - loss: 0.6920 - accuracy: 0.7500
1/1 - 0s - loss: 0.6918 - accuracy: 0.7500
1/1 - 0s - loss: 0.6828 - accuracy: 0.7500
1/1 - 0s - loss: 0.7018 - accuracy: 0.5000
1/1 - 0s - loss: 0.6967 - accuracy: 0.5000
1/1 - 0s - loss: 0.6973 - accuracy: 0.5000
1/1 - 0s - loss: 0.6965 - accuracy: 0.2500
1/1 - 0s - loss: 0.7014 - accuracy: 0.5000
1/1 - 0s - loss: 0.7124 - accuracy: 0.2500
1/1 - 0s - loss: 0.7145 - accuracy: 0.2500
1/1 - 0s - loss: 0.7016 - accuracy: 0.5000
1/1 - 0s - loss: 0.6946 - accuracy: 0.5000
1/1 - 0s - loss: 0.6963 - accuracy: 0.5000
1/1 - 0s - loss: 0.6894 - accuracy: 0.7500
1/1 - 0s - loss: 0.6846 - accuracy: 0.7500
1/1 - 0s - loss: 0.6944 - accuracy: 0.5000
1/1 - 0s - loss: 0.6932 - accuracy: 0.5000
1/1

1/1 - 0s - loss: 0.4207 - accuracy: 0.7500
1/1 - 0s - loss: 0.2118 - accuracy: 1.0000
1/1 - 0s - loss: 0.2133 - accuracy: 1.0000
1/1 - 0s - loss: 0.2130 - accuracy: 1.0000
1/1 - 0s - loss: 0.1706 - accuracy: 1.0000
1/1 - 0s - loss: 0.2640 - accuracy: 0.7500
1/1 - 0s - loss: 0.1813 - accuracy: 1.0000
1/1 - 0s - loss: 0.1449 - accuracy: 1.0000
1/1 - 0s - loss: 0.1912 - accuracy: 1.0000
1/1 - 0s - loss: 0.3193 - accuracy: 0.7500
1/1 - 0s - loss: 0.3065 - accuracy: 0.7500
1/1 - 0s - loss: 0.1700 - accuracy: 1.0000
1/1 - 0s - loss: 0.2227 - accuracy: 1.0000
1/1 - 0s - loss: 0.1861 - accuracy: 1.0000
1/1 - 0s - loss: 0.1738 - accuracy: 1.0000
1/1 - 0s - loss: 0.1456 - accuracy: 1.0000
1/1 - 0s - loss: 0.2363 - accuracy: 0.7500
1/1 - 0s - loss: 0.1587 - accuracy: 1.0000
1/1 - 0s - loss: 0.2117 - accuracy: 1.0000
1/1 - 0s - loss: 0.5834 - accuracy: 0.7500
1/1 - 0s - loss: 0.1943 - accuracy: 1.0000
1/1 - 0s - loss: 1.2008 - accuracy: 0.5000
1/1 - 0s - loss: 0.1635 - accuracy: 1.0000
1/1 - 0s - 

1/1 - 0s - loss: 0.1582 - accuracy: 1.0000
1/1 - 0s - loss: 0.1542 - accuracy: 1.0000
1/1 - 0s - loss: 0.1944 - accuracy: 1.0000
1/1 - 0s - loss: 0.1291 - accuracy: 1.0000
1/1 - 0s - loss: 0.5477 - accuracy: 0.7500
1/1 - 0s - loss: 1.0998 - accuracy: 0.5000
1/1 - 0s - loss: 0.1667 - accuracy: 1.0000
1/1 - 0s - loss: 0.1062 - accuracy: 1.0000
1/1 - 0s - loss: 0.1366 - accuracy: 1.0000
1/1 - 0s - loss: 0.2335 - accuracy: 0.7500
1/1 - 0s - loss: 0.2318 - accuracy: 1.0000
1/1 - 0s - loss: 0.9344 - accuracy: 0.5000
1/1 - 0s - loss: 0.1445 - accuracy: 1.0000
1/1 - 0s - loss: 0.1851 - accuracy: 1.0000
1/1 - 0s - loss: 0.3511 - accuracy: 0.7500
1/1 - 0s - loss: 0.4112 - accuracy: 0.7500
1/1 - 0s - loss: 0.2680 - accuracy: 0.7500
1/1 - 0s - loss: 0.3710 - accuracy: 0.7500
1/1 - 0s - loss: 0.1390 - accuracy: 1.0000
1/1 - 0s - loss: 0.1337 - accuracy: 1.0000
1/1 - 0s - loss: 1.1758 - accuracy: 0.5000
1/1 - 0s - loss: 0.3858 - accuracy: 0.7500
1/1 - 0s - loss: 0.1974 - accuracy: 1.0000
1/1 - 0s - 

1/1 - 0s - loss: 0.4175 - accuracy: 0.7500
1/1 - 0s - loss: 0.4590 - accuracy: 0.7500
1/1 - 0s - loss: 0.1844 - accuracy: 1.0000
1/1 - 0s - loss: 0.1679 - accuracy: 1.0000
1/1 - 0s - loss: 0.4042 - accuracy: 0.7500
1/1 - 0s - loss: 0.5173 - accuracy: 0.7500
1/1 - 0s - loss: 0.1604 - accuracy: 1.0000
1/1 - 0s - loss: 0.1515 - accuracy: 1.0000
1/1 - 0s - loss: 0.3628 - accuracy: 0.7500
1/1 - 0s - loss: 0.1374 - accuracy: 1.0000
1/1 - 0s - loss: 0.1795 - accuracy: 1.0000
1/1 - 0s - loss: 0.2331 - accuracy: 0.7500
1/1 - 0s - loss: 0.2035 - accuracy: 1.0000
1/1 - 0s - loss: 0.1066 - accuracy: 1.0000
1/1 - 0s - loss: 0.2003 - accuracy: 1.0000
1/1 - 0s - loss: 0.0985 - accuracy: 1.0000
1/1 - 0s - loss: 0.1305 - accuracy: 1.0000
1/1 - 0s - loss: 0.1441 - accuracy: 1.0000
1/1 - 0s - loss: 0.1598 - accuracy: 1.0000
1/1 - 0s - loss: 0.1270 - accuracy: 1.0000
1/1 - 0s - loss: 0.1665 - accuracy: 1.0000
1/1 - 0s - loss: 0.1272 - accuracy: 1.0000
1/1 - 0s - loss: 0.6976 - accuracy: 0.5000
1/1 - 0s - 

1/1 - 0s - loss: 0.2059 - accuracy: 0.7500
1/1 - 0s - loss: 0.4174 - accuracy: 0.7500
1/1 - 0s - loss: 0.1815 - accuracy: 1.0000
1/1 - 0s - loss: 0.2512 - accuracy: 0.7500
1/1 - 0s - loss: 0.2351 - accuracy: 1.0000
1/1 - 0s - loss: 0.2070 - accuracy: 0.7500
1/1 - 0s - loss: 0.1775 - accuracy: 1.0000
1/1 - 0s - loss: 0.1517 - accuracy: 1.0000
1/1 - 0s - loss: 0.1177 - accuracy: 1.0000
1/1 - 0s - loss: 0.1011 - accuracy: 1.0000
1/1 - 0s - loss: 0.9418 - accuracy: 0.5000
1/1 - 0s - loss: 0.2586 - accuracy: 0.7500
1/1 - 0s - loss: 0.2095 - accuracy: 0.7500
1/1 - 0s - loss: 0.9844 - accuracy: 0.5000
1/1 - 0s - loss: 0.1610 - accuracy: 1.0000
1/1 - 0s - loss: 0.1055 - accuracy: 1.0000
1/1 - 0s - loss: 0.2407 - accuracy: 0.7500
1/1 - 0s - loss: 0.2672 - accuracy: 0.7500
1/1 - 0s - loss: 0.1519 - accuracy: 1.0000
1/1 - 0s - loss: 0.0839 - accuracy: 1.0000
1/1 - 0s - loss: 0.2075 - accuracy: 1.0000
1/1 - 0s - loss: 0.4887 - accuracy: 0.7500
1/1 - 0s - loss: 0.4758 - accuracy: 0.7500
1/1 - 0s - 

1/1 - 0s - loss: 0.1620 - accuracy: 1.0000
1/1 - 0s - loss: 0.0695 - accuracy: 1.0000
1/1 - 0s - loss: 0.1728 - accuracy: 1.0000
1/1 - 0s - loss: 0.0932 - accuracy: 1.0000
1/1 - 0s - loss: 0.0989 - accuracy: 1.0000
1/1 - 0s - loss: 0.1494 - accuracy: 1.0000
1/1 - 0s - loss: 0.1723 - accuracy: 1.0000
1/1 - 0s - loss: 0.3591 - accuracy: 0.7500
1/1 - 0s - loss: 0.0986 - accuracy: 1.0000
1/1 - 0s - loss: 0.5699 - accuracy: 0.7500
1/1 - 0s - loss: 0.0988 - accuracy: 1.0000
1/1 - 0s - loss: 0.3769 - accuracy: 0.7500
1/1 - 0s - loss: 0.4738 - accuracy: 0.7500
1/1 - 0s - loss: 0.0369 - accuracy: 1.0000
1/1 - 0s - loss: 0.2399 - accuracy: 1.0000
1/1 - 0s - loss: 0.2005 - accuracy: 0.7500
1/1 - 0s - loss: 0.1009 - accuracy: 1.0000
1/1 - 0s - loss: 0.0888 - accuracy: 1.0000
1/1 - 0s - loss: 0.1381 - accuracy: 1.0000
1/1 - 0s - loss: 0.2691 - accuracy: 0.7500
1/1 - 0s - loss: 0.2717 - accuracy: 0.7500
1/1 - 0s - loss: 0.1526 - accuracy: 1.0000
1/1 - 0s - loss: 0.1204 - accuracy: 1.0000
1/1 - 0s - 

In [14]:
# 모델 평가
X, y = get_sequence(n_timesteps)
yhat = model.predict_classes(X, verbose=0)
for i in range(n_timesteps):
    print('실젯값 :', y[0, i], '예측값 : ', yhat[0, i])

실젯값 : [0] 예측값 :  [0]
실젯값 : [1] 예측값 :  [1]
실젯값 : [1] 예측값 :  [1]
실젯값 : [1] 예측값 :  [1]


## 개체명 인식
### 개체명 인식 : 문장내에 포함된 어떤 단어가 인물, 장소, 날짜 등을 의미하는 단어인지 인식하는 것이다.
### 챗봇에서는 문장을 정확하게 해석하기 위해 사용되는 일종의 전처리 과정이다.
#### BIO 태그 : B-개체명, I-개체명으로 태그되며 B는 개체명이 시작되는 단어에, I는 B-개체명과 연결되는 단어일 때 태그된다. O 태그는 개체명 이외에 모든 토큰에 태그된다.
## 양방향 LSTM을 활용한 NER(=개체명 인식기)

In [1]:
import matplotlib.pyplot as plt
import tensorflow as tf
from tensorflow.keras import preprocessing
from sklearn.model_selection import train_test_split
import numpy as np

In [2]:
# 학습 파일 불러오기
def read_file(file_name):
    sents = []
    with open(file_name, 'r', encoding='utf-8') as f:
        lines = f.readlines()
        for idx, l in enumerate(lines):
            if l[0] == ';' and lines[idx + 1][0] == '$':
                this_sent = []
            elif l[0] == '$' and lines[idx - 1][0] == ';':
                continue
            elif l[0] == '\n':
                sents.append(this_sent)
            else:
                this_sent.append(tuple(l.split()))
    return sents

In [3]:
# 학습용 말뭉치 데이터를 불러옴
corpus = read_file('train.txt')

In [4]:
# 말뭉치 데이터에서 단어와 BIO 태그만 불러와 학습용 데이터셋 생성
sentences, tags = [], []
for t in corpus:
    tagged_sentence = []
    sentence, bio_tag = [], []
    for w in t:
        tagged_sentence.append((w[1], w[3]))
        sentence.append(w[1])
        bio_tag.append(w[3])

    sentences.append(sentence)
    tags.append(bio_tag)

print("샘플 크기 : \n", len(sentences))
print("0번째 샘플 문장 시퀀스 : \n", sentences[0])
print("0번째 샘플 bio 태그 : \n", tags[0])
print("샘플 문장 시퀀스 최대 길이 :", max(len(l) for l in sentences))
print("샘플 문장 시퀀스 평균 길이 :", (sum(map(len, sentences))/len(sentences)))

샘플 크기 : 
 3555
0번째 샘플 문장 시퀀스 : 
 ['한편', ',', 'AFC', '챔피언스', '리그', 'E', '조', '에', '속하', 'ㄴ', '포항', '역시', '대회', '8강', '진출', '이', '불투명', '하', '다', '.']
0번째 샘플 bio 태그 : 
 ['O', 'O', 'O', 'O', 'O', 'B_OG', 'I', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
샘플 문장 시퀀스 최대 길이 : 168
샘플 문장 시퀀스 평균 길이 : 34.03909985935302


In [5]:
# 토크나이저 정의
sent_tokenizer = preprocessing.text.Tokenizer(oov_token='OOV') # 첫 번째 인덱스에는 OOV 사용, OOV : 사전에 포함되지 않은 단어
sent_tokenizer.fit_on_texts(sentences)
tag_tokenizer = preprocessing.text.Tokenizer(lower=False) # 태그 정보는 lower= False 소문자로 변환하지 않는다.
tag_tokenizer.fit_on_texts(tags)

In [6]:
# 단어 사전 및 태그 사전 크기
vocab_size = len(sent_tokenizer.word_index) + 1
tag_size = len(tag_tokenizer.word_index) + 1
print("BIO 태그 사전 크기 :", tag_size)
print("단어 사전 크기 :", vocab_size)

BIO 태그 사전 크기 : 8
단어 사전 크기 : 13834


In [7]:
# 학습용 단어 시퀀스 생성
x_train = sent_tokenizer.texts_to_sequences(sentences)
y_train = tag_tokenizer.texts_to_sequences(tags)
print(x_train[0])
print(y_train[0])

[183, 11, 4276, 884, 162, 931, 402, 10, 2608, 7, 1516, 608, 145, 1361, 414, 4, 6347, 2, 8, 3]
[1, 1, 1, 1, 1, 3, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]


In [8]:
# index to word / index to NER 정의
index_to_word = sent_tokenizer.index_word # 시퀀스 인덱스를 단어로 변환하기 위해 사용
index_to_ner = tag_tokenizer.index_word # 시퀀스 인덱스를 NER로 변환하기 위해 사용
index_to_ner[0] = 'PAD'

In [9]:
# 입출력 벡터 크기를 맞추기 위해 시퀀스 패딩 처리
max_len = 40 # 앞서 계산한 단어 시퀀스 평균 길이는 34.03이지만 넉넉하게 40으로 설정
x_train = preprocessing.sequence.pad_sequences(x_train, padding='post', maxlen=max_len)
y_train = preprocessing.sequence.pad_sequences(y_train, padding='post', maxlen=max_len)

In [10]:
# 학습 데이터와 테스트 데이터를 8:2 비율로 분리
x_train, x_test, y_train, y_test = train_test_split(x_train, y_train, test_size=.2, random_state=0)

In [11]:
# 출력 데이터를 원-핫 인코딩
y_train = tf.keras.utils.to_categorical(y_train, num_classes=tag_size)
y_test = tf.keras.utils.to_categorical(y_test, num_classes=tag_size)

print("학습 샘플 시퀀스 형상 : ", x_train.shape)
print("학습 샘플 레이블 형상 : ", y_train.shape)
print("테스트 샘플 시퀀스 형상 : ", x_test.shape)
print("테스트 샘플 레이블 형상 : ", y_test.shape)

학습 샘플 시퀀스 형상 :  (2844, 40)
학습 샘플 레이블 형상 :  (2844, 40, 8)
테스트 샘플 시퀀스 형상 :  (711, 40)
테스트 샘플 레이블 형상 :  (711, 40, 8)


In [18]:
# 모델 정의(Bi-LSTM)
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Embedding, Dense, TimeDistributed, Dropout, Bidirectional
from tensorflow.keras.optimizers import Adam

model = Sequential()
model.add(Embedding(input_dim=vocab_size, output_dim=30, input_length=max_len, mask_zero=True))
model.add(Bidirectional(LSTM(200, return_sequences=True, dropout=0.50, recurrent_dropout=0.25)))
model.add(TimeDistributed(Dense(tag_size, activation='softmax')))
model.compile(loss='categorical_crossentropy', optimizer=Adam(0.01), metrics=['accuracy'])
# tag_size만큼 출력 뉴런에서 제일 확률 높은 출력값 1개를 선택해야하므로 softmax, 손실함수는 categorical_crossentropy 사용
model.fit(x_train, y_train, batch_size=128, epochs=10)
print("평가 결과 : ", model.evaluate(x_test, y_test)[1])

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
평가 결과 :  0.9375343918800354


In [19]:
# 시퀀스를 NER 태그로 변환
def sequences_to_tag(sequences):
    result = []
    for sequence in sequences:
        temp = []
        for pred in sequence:
            pred_index = np.argmax(pred)
            temp.append(index_to_ner[pred_index].replace("PAD", "O"))
        result.append(temp)
    return result

In [20]:
# 테스트 데이터셋의 NER 예측
y_predicted = model.predict(x_test) # (711, 40) => model => (711, 40, 8)
pred_tags = sequences_to_tag(y_predicted) # 예측된 NER
test_tags = sequences_to_tag(y_test) # 실제 NER

In [21]:
# F1 스코어 계산을 위해 사용
from seqeval.metrics import f1_score, classification_report
print(classification_report(test_tags, pred_tags))
print("F1-score: {:.1%}".format(f1_score(test_tags, pred_tags)))

              precision    recall  f1-score   support

           _       0.61      0.56      0.58       657
         _DT       0.92      0.90      0.91       335
         _LC       0.73      0.57      0.64       312
         _OG       0.75      0.53      0.62       481
         _PS       0.74      0.45      0.56       374
         _TI       0.86      0.76      0.81        66

   micro avg       0.73      0.60      0.66      2225
   macro avg       0.77      0.63      0.69      2225
weighted avg       0.73      0.60      0.65      2225

F1-score: 65.6%


In [22]:
# 새로운 유형의 문장 NER 예측
word_to_index = sent_tokenizer.word_index
new_sentence = '삼성전자 출시 스마트폰 오늘 애플 도전장 내밀다.'.split()
new_x = []
for w in new_sentence:
    try:
        new_x.append(word_to_index.get(w, 1))
    except KeyError:
        # 모르는 단어의 경우 OOV
        new_x.append(word_to_index['OOV'])

print("새로운 유형의 시퀀스 : ", new_x)
new_padded_seqs = preprocessing.sequence.pad_sequences([new_x], padding="post", value=0, maxlen=max_len)

새로운 유형의 시퀀스 :  [531, 307, 1476, 286, 1507, 6766, 1]


In [23]:
# NER 예측
p = model.predict(np.array([new_padded_seqs[0]]))
p = np.argmax(p, axis=-1) # 예측된 NER 인덱스값 추출
print("{:10} {:5}".format("단어", "예측된 NER"))
print("-" * 50)

for w, pred in zip(new_sentence, p[0]):
    print("{:10} {:5}".format(w, index_to_ner[pred]))

단어         예측된 NER
--------------------------------------------------
삼성전자       B_OG 
출시         O    
스마트폰       O    
오늘         B_DT 
애플         B_OG 
도전장        I    
내밀다.       O    


In [24]:
# B_OG(조직), B_DT(날짜)