In [31]:
import pandas as pd
from keras.models import Sequential
from keras.layers import Dense, Embedding, LSTM, Dropout
from keras.optimizers import *
from keras.utils import np_utils
from keras.preprocessing import sequence
from keras.preprocessing.text import Tokenizer

from nltk.tokenize import sent_tokenize
from konlpy.corpus import kolaw
from konlpy.tag import Okt
import matplotlib.pyplot as plt

from keras import models,layers,optimizers,metrics,preprocessing

import os

import re

path='C:/Users/student/Downloads/데이터들/'

In [32]:
chatbotData=pd.read_csv(path+'ChatData.csv')
question, answer = list(chatbotData['Q']), list(chatbotData['A'])

In [33]:
len(answer)

11823

In [34]:
question=question[:100]
answer=answer[:100]

In [35]:
for i in range(10):
    print("질문:"+question[i])
    print('답변:'+answer[i])
    print()

질문:12시 땡!
답변:하루가 또 가네요.

질문:1지망 학교 떨어졌어
답변:위로해 드립니다.

질문:3박4일 놀러가고 싶다
답변:여행은 언제나 좋죠.

질문:3박4일 정도 놀러가고 싶다
답변:여행은 언제나 좋죠.

질문:PPL 심하네
답변:눈살이 찌푸려지죠.

질문:SD카드 망가졌어
답변:다시 새로 사는 게 마음 편해요.

질문:SD카드 안돼
답변:다시 새로 사는 게 마음 편해요.

질문:SNS 맞팔 왜 안하지ㅠㅠ
답변:잘 모르고 있을 수도 있어요.

질문:SNS 시간낭비인 거 아는데 매일 하는 중
답변:시간을 정하고 해보세요.

질문:SNS 시간낭비인데 자꾸 보게됨
답변:시간을 정하고 해보세요.



In [36]:
# 태그 단어
PAD="<PADDING>" # 패딩
STA="<START>"   # 시작
END="<END>"     # 끝
OOV="<OOV>"     # out of vocabulary => 사전에 없는 단어 
PAD_INDEX=0
STA_INDEX=1
END_INDEX=2
OOV_INDEX=3

ENCODER_INPUT=0
DECODER_INPUT=1
DECODER_TARGET=2

# 한 문장에서 단어 시퀀스의 최대 개수
maxSequences=30

# 임베딩 벡터 차원
embeddingDim=100

# LSTM 출력 차원
lstmHiddenDim=128

# 정규표현식 필터
RE_FILTER=re.compile("[..!?\"':;~()]")

In [37]:
# 형태소 분석기
def posTag(sentences):
    tagger=Okt()
    sentencePos=[]
    
    for sentence in sentences:
        # 특수문자 제거
        sentence=re.sub(RE_FILTER,"",sentence)
        sentence=" ".join(tagger.morphs(sentence))
        sentencePos.append(sentence)
    
    return sentencePos

In [38]:
question=posTag(question)
answer=posTag(answer)

In [39]:
# 질문 + 대답 문장을 하나로 합치기
sentences=[]
sentences.extend(question)
sentences.extend(answer)
words=[]

In [40]:
for sentence in sentences:
    for word in sentence.split():
        words.append(word)

In [41]:
len(words)

969

In [42]:
# words에서 길이가 0인 단어를 삭제
# 중복단어 삭제
words=[word for word in words if len(word)>0]
words=list(set(words))

In [43]:
len(words)

451

In [51]:
words[:0]=[PAD, STA, END, OOV]

In [52]:
words[:20]

['<PADDING>',
 '<START>',
 '<END>',
 '<OOV>',
 '빼고',
 '휴식',
 '간다',
 '줘',
 '소중해요',
 '먼저',
 '비싼데',
 '나오세요',
 '하면',
 '먹을까',
 '싫어하지',
 '가려고',
 '으로',
 '들어올',
 '득템',
 '잠깐']

In [59]:
# 단어에 대한 인덱스를 부여 -> 딕셔너리
wordToIndex={word:index for index, word in enumerate(words)}
indexToWord={index:word for index, word in enumerate(words)}

In [61]:
indexToWord

{0: '<PADDING>',
 1: '<START>',
 2: '<END>',
 3: '<OOV>',
 4: '빼고',
 5: '휴식',
 6: '간다',
 7: '줘',
 8: '소중해요',
 9: '먼저',
 10: '비싼데',
 11: '나오세요',
 12: '하면',
 13: '먹을까',
 14: '싫어하지',
 15: '가려고',
 16: '으로',
 17: '들어올',
 18: '득템',
 19: '잠깐',
 20: '내',
 21: 'ㅠㅠ',
 22: '곳',
 23: '쉬는',
 24: '기관',
 25: '할',
 26: '첫인상',
 27: '개인',
 28: '사는',
 29: '장난',
 30: '해봐요',
 31: '엉망',
 32: '시켜',
 33: '게',
 34: '이랑',
 35: '자신',
 36: '갈까',
 37: '하는지',
 38: '보면',
 39: '없죠',
 40: '망함',
 41: '화폐',
 42: '하루',
 43: '하지',
 44: '좋은',
 45: '있을',
 46: '땀',
 47: '그건',
 48: '같이',
 49: '알',
 50: '가기',
 51: '매일',
 52: '필요하죠',
 53: '알아차려도',
 54: '만들어',
 55: '사람',
 56: '상황',
 57: '내일',
 58: '하는',
 59: '맛있게',
 60: '모르고',
 61: '쫄딱',
 62: '고민',
 63: '돼',
 64: '있어',
 65: '감',
 66: '너무',
 67: '개학',
 68: '한테',
 69: '눈살',
 70: '말',
 71: '같은',
 72: '여행',
 73: '아님',
 74: '좋겠네요',
 75: '편해요',
 76: '자리',
 77: '는',
 78: '씨방',
 79: '결정',
 80: '곧',
 81: '건데',
 82: '시켜야지',
 83: '키워',
 84: '당신',
 85: '사세요',
 86: '뭘',
 87: '갈',
 88: '가세',


In [62]:
# 전처리
# 문장 -> 인덱스로 변환

In [73]:
def convertTextToIndex(sentences, voc, mytype):
    sentencesIndex=[]
    for sentence in sentences:
        sentenceIndex=[]
        if mytype==DECODER_INPUT:
            sentenceIndex.extend([voc[STA]]) # <START>
        for word in sentence.split():
            if voc.get(word) is not None:
                sentenceIndex.extend([voc[word]])
                # 단어에 해당되는 인덱스가 추가
            else:
                # 사전에 없는 단어의 경우
                sentenceIndex.extend([voc[OOV]])
            
        if mytype==DECODER_TARGET:
            # 디코더 출력은 맨 마지막에 end추가
            if maxSequences<=len(sentenceIndex):
                sentenceIndex=sentenceIndex[:maxSequences-1]+[voc[END]]
            else:
                sentenceIndex+=[voc[END]]
        
        else:
            if len(sentenceIndex)>maxSequences:
                sentenceIndex=entenceIndex[:maxSequences]
        
        # 0으로 채움
        sentenceIndex+=[wordToIndex[PAD]]*(maxSequences-len(sentenceIndex))
        sentencesIndex.append(sentenceIndex)
        
    return np.asarray(sentencesIndex)

In [75]:
xEncoder=convertTextToIndex(question, wordToIndex, ENCODER_INPUT)
xDecoder=convertTextToIndex(question, wordToIndex, DECODER_INPUT)
yDecoder=convertTextToIndex(question, wordToIndex, DECODER_TARGET)

In [None]:
# 인코더 입력 : 12시 떙
# 디코더 입력 : START 하루 가   또   가네요
# 디코더 출력 : 하루   가  또 가네요  END