<a href="https://colab.research.google.com/github/hakdj/mlearning/blob/master/Untitled1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
!pip install JPype1

In [None]:
!pip install konlpy

In [3]:
from bs4 import BeautifulSoup
import re
import konlpy
import numpy as np
import pandas as pd
import pickle
import tensorflow as tf

In [4]:
tf.random.set_seed(777) #하이퍼파라미터 튜닝을 위해 실행시 마다 변수가 같은 초기값 가지게 하기


## 시작

### 텍스트 정제

In [5]:
# 데이터 타입
ENCODER_INPUT  = 0
DECODER_INPUT  = 1
DECODER_OUTPUT = 2

# 태그 단어
PADDING = "<PADDING>"   # 패딩
START = "<START>"     # 시작
END = "<END>"       # 끝
OOV = "<OOV>"       # 없는 단어(Out of Vocabulary)

# 한 문장에서 단어 시퀀스의 최대 개수
sequence_length = 30

# 태그 인덱스
PADDING_INDEX = 0
START_INDEX = 1
END_INDEX = 2
OOV_INDEX = 3

def clean_korean_documents_simple_version(documents):
    #텍스트 정제 (HTML 태그 제거)
    for i, document in enumerate(documents):
        document = BeautifulSoup(document, 'html.parser').text 
        #print(document) #스토리가 진짜 너무 노잼
        documents[i] = document

    #텍스트 정제 (특수기호 제거)
    for i, document in enumerate(documents):
        document = re.sub(r'[^ ㄱ-ㅣ가-힣]', '', document) #특수기호 제거, 정규 표현식
        #print(document) stale and uninspired
        documents[i] = document

    #텍스트 정제 (형태소 추출)
    for i, document in enumerate(documents):
        okt = konlpy.tag.Okt()
        clean_words = []
        for word in okt.morphs(document): 
            clean_words.append(word)
        #print(clean_words) #['스토리', '진짜', '노잼']
        document = ' '.join(clean_words)
        #print(document) #스토리 진짜 노잼
        documents[i] = document

    return documents

In [6]:
# 문장을 인덱스로 변환
def convert_word_to_index(documents, word_to_index, document_usage): 
    documents_index = []

    # 모든 문장에 대해서 반복
    for document in documents:
        document_index = []

        # 디코더 입력일 경우 맨 앞에 START 태그 추가
        if document_usage == DECODER_INPUT:
            document_index.append(word_to_index[START])

        # 문장의 단어들을 띄어쓰기로 분리
        for word in document.split():
            if word_to_index.get(word) is not None:
                # 사전에 있는 단어면 해당 인덱스를 추가
                document_index.append(word_to_index[word])
            else:
                # 사전에 없는 단어면 OOV 인덱스를 추가
                document_index.append(word_to_index[OOV])

        # 최대 길이 검사
        if document_usage == DECODER_OUTPUT:
            # 디코더 목표일 경우 맨 뒤에 END 태그 추가
            if len(document_index) >= sequence_length:
                document_index = document_index[:sequence_length-1] + [word_to_index[END]]
            else:
                document_index += [word_to_index[END]]
        else:
            if len(document_index) > sequence_length:
                document_index = document_index[:sequence_length]

        # 최대 길이에 없는 공간은 패딩 인덱스로 채움
        document_index += [word_to_index[PADDING]] * (sequence_length - len(document_index))

        # 문장의 인덱스 배열을 추가
        documents_index.append(document_index)

    return np.asarray(documents_index)

# 인덱스를 문장으로 변환
def convert_index_to_word(indexs, index_to_word): 
    document = ''

    # 모든 문장에 대해서 반복
    for index in indexs:
        if index == END_INDEX:
            # 종료 인덱스면 중지
            break;
        if index_to_word.get(index) is not None:
            # 사전에 있는 인덱스면 해당 단어를 추가
            document += index_to_word[index]
        else:
            # 사전에 없는 인덱스면 OOV 단어를 추가
            document += index_to_word[OOV_INDEX]

        # 빈칸 추가
        document += ' '

    return document    


### 데이터 로드

In [7]:

##########데이터 로드

df = pd.read_csv('https://raw.githubusercontent.com/deepseasw/seq2seq_chatbot/master/dataset/chatbot/ChatbotData.csv')

##########데이터 분석

##########데이터 전처리

question = df['Q']
answer = df['A']
question = question.to_numpy()
answer = answer.to_numpy()
question = question[:100] #데이터를 100개로 제한
answer = answer[:100]
print(question[:3]) #['12시 땡!', '1지망 학교 떨어졌어']
print(answer[:3]) #['하루가 또 가네요.', '위로해 드립니다.']

# 형태소분석 수행
question = clean_korean_documents_simple_version(question)
answer = clean_korean_documents_simple_version(answer)
print(question[:3]) #['12시 땡', '1 지망 학교 떨어졌어']
print(answer[:3]) #['하루 가 또 가네요', '위로 해 드립니다']

['12시 땡!' '1지망 학교 떨어졌어' '3박4일 놀러가고 싶다']
['하루가 또 가네요.' '위로해 드립니다.' '여행은 언제나 좋죠.']
['시 땡' '지망 학교 떨어졌어' '박일 놀러 가고 싶다']
['하루 가 또 가네요' '위로 해 드립니다' '여행 은 언제나 좋죠']


#### 질문, 대답 문장들 합치는 구간

In [None]:
# 질문과 대답 문장들을 하나로 합침
documents = []
documents.extend(question)
documents.extend(answer)
# 단어들의 배열 생성
words = []
for document in documents:
    for word in document.split():
        words.append(word)
# 길이가 0인 단어는 삭제
words = [word for word in words if len(word) > 0]
# 중복된 단어 삭제
words = list(set(words))
# 제일 앞에 태그 단어 삽입
words = [PADDING, START, END, OOV] + words
print(words[:10]) #['<PADDING>', '<START>', '<END>', '<OOV>', '으로', '아세요', '다음', '모두', '정말', '그런거니']
vocab_size = len(words)
# 단어와 인덱스의 딕셔너리 생성
word_to_index = {word: index for index, word in enumerate(words)} #단어 -> 인덱스, 문장을 인덱스로 변환하여 모델 입력으로 사용
index_to_word = {index: word for index, word in enumerate(words)} #인덱스 -> 단어, 모델의 예측 결과인 인덱스를 문장으로 변환시 사용

# 인코더 입력 인덱스 변환
x_encoder = convert_word_to_index(question, word_to_index, ENCODER_INPUT)
print(x_encoder[:3]) 
'''
[[140 413   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
    0   0   0   0   0   0   0   0   0   0   0   0]
 [336  49  61 223   0   0   0   0   0   0   0   0   0   0   0   0   0   0
    0   0   0   0   0   0   0   0   0   0   0   0]]
'''
# 디코더 입력 인덱스 변환 (START ~)
x_decoder = convert_word_to_index(answer, word_to_index, DECODER_INPUT)
print(x_decoder[:3]) 
'''
[[  1 356 257 343 180   0   0   0   0   0   0   0   0   0   0   0   0   0
    0   0   0   0   0   0   0   0   0   0   0   0]
 [  1 106 187 289   0   0   0   0   0   0   0   0   0   0   0   0   0   0
    0   0   0   0   0   0   0   0   0   0   0   0]]
'''
# 디코더 목표 인덱스 변환 (~ END)
y_decoder = convert_word_to_index(answer, word_to_index, DECODER_OUTPUT)
print(y_decoder[:3]) 
'''
[[356 257 343 180   2   0   0   0   0   0   0   0   0   0   0   0   0   0
    0   0   0   0   0   0   0   0   0   0   0   0]
 [106 187 289   2   0   0   0   0   0   0   0   0   0   0   0   0   0   0
    0   0   0   0   0   0   0   0   0   0   0   0]]
'''
#원핫 인코딩
y_decoder = tf.keras.utils.to_categorical(y_decoder, vocab_size)

### 모델 생성

In [None]:
##########모델 생성

encoder_input = tf.keras.layers.Input(shape=(None,)) #입력 문장의 인덱스 시퀀스를 입력으로 받음
decoder_input = tf.keras.layers.Input(shape=(None,)) #목표 문장의 인덱스 시퀀스를 입력으로 받음
net = tf.keras.layers.Embedding(input_dim=vocab_size, output_dim=100)(encoder_input)
net, state_h, state_c = tf.keras.layers.LSTM(units=128, return_sequences=True, return_state=True)(net)
#net, state_h, state_c = tf.keras.layers.LSTM(units=128, return_sequences=True, return_state=True, dropout=0.1, recurrent_dropout=0.5)(net)
net = tf.keras.layers.Embedding(input_dim=vocab_size, output_dim=100)(decoder_input)
net, state_h, state_c = tf.keras.layers.LSTM(units=128, return_sequences=True, return_state=True)(net, initial_state=[state_h, state_c]) #initial_state를 인코더의 상태로 초기화
#net, state_h, state_c = tf.keras.layers.LSTM(units=128, return_sequences=True, return_state=True, dropout=0.1, recurrent_dropout=0.5)(net, initial_state=[state_h, state_c]) #initial_state를 인코더의 상태로 초기화
net = tf.keras.layers.Dense(units=vocab_size, activation='softmax')(net) #단어의 개수만큼 노드의 개수를 설정해 원핫 형식으로 각 단어 인덱스를 출력
model = tf.keras.models.Model([encoder_input, decoder_input], net)

model.summary()
'''
Model: "model"
__________________________________________________________________________________________________
Layer (type)                    Output Shape         Param #     Connected to                     
==================================================================================================
input_1 (InputLayer)            [(None, None)]       0                                            
__________________________________________________________________________________________________
input_2 (InputLayer)            [(None, None)]       0                                            
__________________________________________________________________________________________________
embedding (Embedding)           (None, None, 100)    45400       input_1[0][0]                    
__________________________________________________________________________________________________
embedding_1 (Embedding)         (None, None, 100)    45400       input_2[0][0]                    
__________________________________________________________________________________________________
lstm (LSTM)                     [(None, None, 128),  117248      embedding[0][0]                  
__________________________________________________________________________________________________
lstm_1 (LSTM)                   [(None, None, 128),  117248      embedding_1[0][0]                
                                                                 lstm[0][1]                       
                                                                 lstm[0][2]                       
__________________________________________________________________________________________________
dense (Dense)                   (None, None, 454)    58566       lstm_1[0][0]                     
==================================================================================================
Total params: 383,862
Trainable params: 383,862
Non-trainable params: 0
__________________________________________________________________________________________________
'''

### 모델 학습

In [None]:
##########모델 학습 및 검증

#인코더
encoder_input = model.input[0]
net = model.layers[2](encoder_input)
net, state_h, state_c = model.layers[4](net)
encoder_model = tf.keras.models.Model(encoder_input, [state_h, state_c])

encoder_model.summary()
'''
Model: "model_1"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
=================================================================
input_1 (InputLayer)         [(None, None)]            0         
_________________________________________________________________
embedding (Embedding)        (None, None, 100)         45400     
_________________________________________________________________
lstm (LSTM)                  [(None, None, 128), (None 117248    
=================================================================
Total params: 162,648
Trainable params: 162,648
Non-trainable params: 0
_________________________________________________________________
'''

#디코더
decoder_input = tf.keras.layers.Input(shape=(None,))
state_h_input = tf.keras.layers.Input(shape=(128,))
state_c_input = tf.keras.layers.Input(shape=(128,))   
net = model.layers[-4](decoder_input)
net, state_h, state_c = model.layers[-2](net, initial_state=[state_h_input, state_c_input])
net = model.layers[-1](net)
decoder_model = tf.keras.models.Model([decoder_input, state_h_input, state_c_input], [net, state_h, state_c])

decoder_model.summary()
'''
Model: "model_2"
__________________________________________________________________________________________________
Layer (type)                    Output Shape         Param #     Connected to                     
==================================================================================================
input_3 (InputLayer)            [(None, None)]       0                                            
__________________________________________________________________________________________________
embedding_1 (Embedding)         (None, None, 100)    45400       input_3[0][0]                    
__________________________________________________________________________________________________
input_4 (InputLayer)            [(None, 128)]        0                                            
__________________________________________________________________________________________________
input_5 (InputLayer)            [(None, 128)]        0                                            
__________________________________________________________________________________________________
lstm_1 (LSTM)                   [(None, None, 128),  117248      embedding_1[1][0]                
                                                                 input_4[0][0]                    
                                                                 input_5[0][0]                    
__________________________________________________________________________________________________
dense (Dense)                   (None, None, 454)    58566       lstm_1[1][0]                     
==================================================================================================
Total params: 221,214
Trainable params: 221,214
Non-trainable params: 0
__________________________________________________________________________________________________
'''


In [None]:
#내장 루프
def on_epoch_end(epoch, logs):
    x_encoder = np.array([
        '3 박 4일 놀러 가고 싶다'
    ])

    x_encoder = clean_korean_documents_simple_version(x_encoder)
    x_encoder = convert_word_to_index(x_encoder, word_to_index, ENCODER_INPUT)
    print(x_encoder) #
    print(len(x_encoder[0])) #

    x_decoder = np.array([
        '여행 은 언제나 좋죠'
    ])

    x_decoder = clean_korean_documents_simple_version(x_decoder)
    x_decoder = convert_word_to_index(x_decoder, word_to_index, DECODER_INPUT)
    print(x_decoder) #
    print(len(x_decoder[0])) #

    y_predict = model.predict([x_encoder, x_decoder])
    #print(y_predict.shape) #(1, 30, 454)
    indexs = y_predict.argmax(axis=2)
    #print(indexs) #[[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]]

    # 인덱스를 문장으로 변환
    text = convert_index_to_word(indexs[0], index_to_word)
    print()
    print('3 박 4일 놀러 가고 싶다 ->', text) #<PADDING> <PADDING> <PADDING> <PADDING> <PADDING> <PADDING> <PADDING> <PADDING> <PADDING> <PADDING> <PADDING> <PADDING> <PADDING> <PADDING> <PADDING> <PADDING> <PADDING> <PADDING> <PADDING> <PADDING> <PADDING> <PADDING> <PADDING> <PADDING> <PADDING> <PADDING> <PADDING> <PADDING> <PADDING> <PADDING> 

model.compile(loss='categorical_crossentropy', optimizer='rmsprop', metrics=['accuracy']) #optimizer='rmsprop' 더 좋은 성능
#model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
#model.compile(loss=tf.keras.losses.CategoricalCrossentropy(), optimizer=tf.keras.optimizers.Adam(learning_rate=0.01), metrics=[tf.keras.metrics.Accuracy()])

model.fit([x_encoder, x_decoder], y_decoder, epochs=2000, validation_split=0.3, callbacks=[tf.keras.callbacks.LambdaCallback(on_epoch_end=on_epoch_end)])


### 모델 예측

In [12]:
##########모델 예측

print('인공지능 챗봇')
print('인공지능 챗봇과 대화를 합니다.')

x_encoder = np.array([
    '3박4일 놀러가고 싶다'
])

x_encoder = clean_korean_documents_simple_version(x_encoder)
x_encoder = convert_word_to_index(x_encoder, word_to_index, ENCODER_INPUT)
#print(x_encoder) #[[209 201 271  70 219 113   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0]]
#print(len(x_encoder[0])) #30

# 입력을 인코더에 넣어 마지막 상태 구함
state_h, state_c = encoder_model.predict(x_encoder)
#print(state_h.shape) #(1, 128)
#print(state_c.shape) #(1, 128)

# 인덱스 초기화
indexs = []

# 목표 시퀀스 초기화
x_decoder = np.zeros((1, 1))
# 목표 시퀀스의 첫 번째에 <START> 태그 추가
x_decoder[0, 0] = START_INDEX
#print(x_decoder) #[[1.]]

# 디코더로 현재 타임 스텝 출력 구함
# 처음에는 인코더 상태를, 다음부터 이전 디코더 상태로 초기화
# 디코더의 이전 상태를 다음 디코더 예측에 사용
y_predict, state_h, state_c = decoder_model.predict([x_decoder, state_h, state_c])
#print(y_predict.shape) #(1, 1, 454)
#print(state_h.shape) #(1, 128)
#print(state_c.shape) #(1, 128)
# 결과의 원핫인코딩 형식을 인덱스로 변환
#print(y_predict[0, 0, :].shape) #(454,)
index = y_predict[0, 0, :].argmax()
#print(index) #0
indexs.append(index)

# 디코더 타임 스텝 반복
while index != END_INDEX:
    # 목표 시퀀스를 바로 이전의 출력으로 설정
    x_decoder = np.zeros((1, 1))
    x_decoder[0, 0] = index
    #print(x_decoder) #[[0.]]

    # 디코더로 현재 타임 스텝 출력 구함
    # 처음에는 인코더 상태를, 다음부터 이전 디코더 상태로 초기화
    # 디코더의 이전 상태를 다음 디코더 예측에 사용
    y_predict, state_h, state_c = decoder_model.predict([x_decoder, state_h, state_c])
    #print(y_predict.shape) #(1, 1, 454)
    #print(state_h.shape) #(1, 128)
    #print(state_c.shape) #(1, 128)
    # 결과의 원핫인코딩 형식을 인덱스로 변환
    #print(y_predict[0, 0, :].shape) #(454,)
    index = y_predict[0, 0, :].argmax() 
    #print(index) #0
    indexs.append(index)

    # 종료 검사
    if len(indexs) >= sequence_length:
        break

# 인덱스를 문장으로 변환
#print(indexs) #[194, 257, 379, 2] 
text = convert_index_to_word(indexs, index_to_word)
print(text) #저 도 요 

인공지능 챗봇
인공지능 챗봇과 대화를 합니다.
여행 은 언제나 좋죠 


#### 참고)

In [None]:
encoder_model = Model(inputs=question_input, outputs=[state_h, state_c])

### 모델 검증

In [20]:
##########모델 학습 및 검증

# 인덱스를 문장으로 변환
def convert_index_to_text(indexs, index_to_word): 

    sentence = ''

    # 모든 문장에 대해서 반복
    for index in indexs:
        if index == END_INDEX:
            # 종료 인덱스면 중지
            break;
        if index_to_word.get(index) is not None:
            # 사전에 있는 인덱스면 해당 단어를 추가
            sentence += index_to_word[index]
        else:
            # 사전에 없는 인덱스면 OOV 단어를 추가
            sentence.extend([index_to_word[OOV_INDEX]])

        # 빈칸 추가
        sentence += ' '

    return sentence

#model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
model.compile(loss='categorical_crossentropy', optimizer='rmsprop', metrics=['accuracy']) #optimizer='rmsprop' 더 좋은 성능
#model.compile(loss=tf.keras.losses.CategoricalCrossentropy(), optimizer=tf.keras.optimizers.Adam(learning_rate=0.01), metrics=[tf.keras.metrics.Accuracy()])

# 에폭 반복
for epoch in range(20):
    print('Total Epoch :', epoch + 1)

    # 훈련 시작
    history = model.fit([x_encoder, x_decoder], y_decoder, epochs=100, verbose=0)
    print(history.history)
    # 정확도와 손실 출력
    print('accuracy :', history.history['accuracy'][-1])
    print('loss :', history.history['loss'][-1])

    # 문장 예측 테스트
    # (3 박 4일 놀러 가고 싶다) -> (여행 은 언제나 좋죠)
    input_encoder = x_encoder[2].reshape(1, x_encoder[2].shape[0])
    input_decoder = x_decoder[2].reshape(1, x_decoder[2].shape[0])
    results = model.predict([input_encoder, input_decoder])
    # 결과의 원핫인코딩 형식을 인덱스로 변환
    # 1축을 기준으로 가장 높은 값의 위치를 구함
    indexs = np.argmax(results[0], 1) 

    # 인덱스를 문장으로 변환
    sentence = convert_index_to_text(indexs, index_to_word)
    print(sentence)
    print()

Total Epoch : 1


ValueError: ignored