In [2]:
import matplotlib.pyplot as plt
import tensorflow as tf
from tensorflow.keras import preprocessing
from sklearn.model_selection import train_test_split
import numpy as np

import sys
sys.path.insert(0,"../../")
from utils.Preprocess import Preprocess


# 학습 파일 불러오기
def read_file(file_name):
    sents = []
    with open(file_name, 'r', encoding='utf-8') as f:
        lines = f.readlines()
        for idx, l in enumerate(lines):
            if l[0] == ';' and lines[idx + 1][0] == '$':
                this_sent = []
            elif l[0] == '$' and lines[idx - 1][0] == ';':
                continue
            elif l[0] == '\n':
                sents.append(this_sent)
            else:
                this_sent.append(tuple(l.split()))
    return sents


# 학습용 말뭉치 데이터를 불러옴
#corpus = read_file('./ner_train.txt')
corpus = read_file('./mtn_ner_train.txt')
#print(corpus[0:2]) # shape = ( batch, sequence(순서,단어,태깅,BIO) )
# [ [('1', '가락지빵', 'NNG', 'B_FOOD'), ('2', '주문', 'NNP', 'O'), ('3', '하', 'VV', 'O'), ('4', '고', 'EC', 'O'), ('5', '싶', 'VX', 'O'), ('6', '어요', 'EC', 'O')]
#   [('1', '가락지빵', 'NNG', 'B_FOOD'), ('2', '먹', 'VV', 'O'), ('3', '고', 'EC', 'O'), ('4', '싶', 'VX', 'O'), ('5', '어요', 'EC', 'O')]
# ]


# 말뭉치 데이터에서 단어와 BIO 태그만 불러와 학습용 데이터셋 생성
sentences, tags = [], []

for t in corpus:
    tagged_sentence = []
    sentence, bio_tag = [], []

    for w in t:
        tagged_sentence.append((w[1], w[3]))
        sentence.append(w[1])
        bio_tag.append(w[3])
    
    sentences.append(sentence)
    tags.append(bio_tag)


print("샘플 크기 : \n", len(sentences))
print("0번 째 샘플 단어 시퀀스 : \n", sentences[0])
print("0번 째 샘플 bio 태그 : \n", tags[0])
print("마지막 샘플 단어 시퀀스 : \n", sentences[-1])
print("마지막 샘플 bio 태그 : \n", tags[-1])
print("샘플 단어 시퀀스 최대 길이 :", max(len(l) for l in sentences))
print("샘플 단어 시퀀스 평균 길이 :", (sum(map(len, sentences))/len(sentences)))

# 단어사전 및 태그 사전 크기
p = Preprocess(word2index_dic='../../train_tools/dict/chatbot_dict3.bin',
               userdic='../../utils/user_dic.tsv')
tag_tokenizer = preprocessing.text.Tokenizer(lower=False) # 태그 정보는 lower=False 소문자로 변환하지 않는다.
tag_tokenizer.fit_on_texts(tags)

# 사전 수정
index_to_ner = tag_tokenizer.index_word # 시퀀스 인덱스를 NER로 변환 하기 위해 사용
index_to_ner[0] = 'PAD'  # 패딩값의 예측값 키워드 추가
print(index_to_ner)
vocab_size = len(p.word_index) + 1
tag_size = len(tag_tokenizer.word_index) + 1
print("BIO 태그 사전 크기 :", tag_size)
print("단어 사전 크기 :", vocab_size)

# 학습용 단어 시퀀스 생성(라벨 인덱싱)
x_train = [p.get_wordidx_sequence(sent) for sent in sentences]
y_train = tag_tokenizer.texts_to_sequences(tags)

print("x_train, y_train")
print(x_train[-2:-1])
print(y_train[-2:-1])


# 시퀀스 패딩 처리
max_len = 40
x_train = preprocessing.sequence.pad_sequences(x_train, padding='post', maxlen=max_len)
y_train = preprocessing.sequence.pad_sequences(y_train, padding='post', maxlen=max_len)

# 학습 데이터와 테스트 데이터를 8:2의 비율로 분리
x_train, x_test, y_train, y_test = train_test_split(x_train, y_train,
                                                    test_size=.2,
                                                    random_state=1234)

# 출력 데이터를 one-hot encoding
y_train = tf.keras.utils.to_categorical(y_train, num_classes=tag_size)
y_test = tf.keras.utils.to_categorical(y_test, num_classes=tag_size)

print("학습 샘플 시퀀스 형상 : ", x_train.shape)
print("학습 샘플 레이블 형상 : ", y_train.shape)
print("테스트 샘플 시퀀스 형상 : ", x_test.shape)
print("테스트 샘플 레이블 형상 : ", y_test.shape)


# 모델 정의 (Bi-LSTM)
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Embedding, Dense, TimeDistributed, Dropout, Bidirectional
from tensorflow.keras.optimizers import Adam
# 
model = Sequential()
model.add(Embedding(input_dim=vocab_size, output_dim=30, input_length=max_len, mask_zero=True))
model.add(Bidirectional(LSTM(200, return_sequences=True, dropout=0.50, recurrent_dropout=0.25)))
model.add(TimeDistributed(Dense(tag_size, activation='softmax')))
model.compile(loss='categorical_crossentropy', optimizer=Adam(0.01), metrics=['accuracy'])
#model.fit(x_train, y_train, batch_size=128, epochs=10)
model.fit(x_train, y_train, batch_size=128, epochs=1)
# 
print("평가 결과 : ", model.evaluate(x_test, y_test)[1])
model.save('ner_model2.h5')
# 
# 
# 시퀀스를 NER 태그로 변환
def sequences_to_tag(sequences):  # 예측값을 index_to_ner를 사용하여 태깅 정보로 변경하는 함수.
    result = []
    for sequence in sequences:  # 전체 시퀀스로부터 시퀀스를 하나씩 꺼낸다.
        temp = []
        for pred in sequence:  # 시퀀스로부터 예측값을 하나씩 꺼낸다.
            pred_index = np.argmax(pred)  # 예를 들어 [0, 0, 1, 0 ,0]라면 1의 인덱스인 2를 리턴한다.
            temp.append(index_to_ner[pred_index].replace("PAD", "O"))  # 'PAD'는 'O'로 변경
        result.append(temp)
    return result
# 
# 
# f1 스코어 계산을 위해 사용
from seqeval.metrics import f1_score, classification_report
# 
# 테스트 데이터셋의 NER 예측
y_predicted = model.predict(x_test)
pred_tags = sequences_to_tag(y_predicted) # 예측된 NER
test_tags = sequences_to_tag(y_test)    # 실제 NER
# 
# F1 평가 결과
print(classification_report(test_tags, pred_tags))
print("F1-score: {:.1%}".format(f1_score(test_tags, pred_tags)))


샘플 크기 : 
 72000
0번 째 샘플 단어 시퀀스 : 
 ['가락지빵', '주문', '하', '고', '싶', '어요']
0번 째 샘플 bio 태그 : 
 ['B_FOOD', 'O', 'O', 'O', 'O', 'O']
마지막 샘플 단어 시퀀스 : 
 ['남산근린공원', '소학리구간']
마지막 샘플 bio 태그 : 
 ['B_LC', 'B_LC']
샘플 단어 시퀀스 최대 길이 : 168
샘플 단어 시퀀스 평균 길이 : 7.885694444444445
BIO 태그 사전 크기 : 11
단어 사전 크기 : 17869
x_train, y_train
[[1, 1]]
[[4, 4]]
{1: 'O', 2: 'B_DT', 3: 'B_FOOD', 4: 'B_LC', 5: 'I', 6: 'B_OG', 7: 'I_LC', 8: 'B_PS', 9: 'NNP', 10: 'B_TI', 0: 'PAD'}
학습 샘플 시퀀스 형상 :  (57600, 40)
학습 샘플 레이블 형상 :  (57600, 40, 11)
테스트 샘플 시퀀스 형상 :  (14400, 40)
테스트 샘플 레이블 형상 :  (14400, 40, 11)
평가 결과 :  0.9853366613388062




              precision    recall  f1-score   support

          NP       1.00      1.00      1.00       282
           _       0.57      0.43      0.49       631
         _DT       0.99      1.00      0.99     13306
       _FOOD       1.00      1.00      1.00     11665
         _LC       0.96      0.96      0.96      4351
         _OG       0.65      0.33      0.44       481
         _PS       0.46      0.33      0.38       358
         _TI       0.94      0.21      0.35        70

   micro avg       0.98      0.96      0.97     31144
   macro avg       0.82      0.66      0.70     31144
weighted avg       0.97      0.96      0.96     31144

F1-score: 96.9%
