tap으로 send, reply가 구분되어 있는 pair corpus를 불러올 수 있는 클래스를 하나 만듧니다. 

cohesion 학습을 위하여 pair 형태로 출력할지, 1 문장 형태로 출력할 지 정할 수 있는 yield_pair argument를 만듦니다

In [1]:
class PairCorpus:
    def __init__(self, fname, yield_pair=True):
        self.fname = fname
        self.yield_pair = yield_pair
        
    def __iter__(self):
        with open(self.fname, encoding='utf-8') as f:
            for doc in f:
                try:
                    send, reply = doc.replace('\n','').split('\t')
                    if self.yield_pair:
                        yield (send, reply)
                    else:
                        for sent in [send, reply]:
                            yield sent
                except Exception as e:
                    print(e)
                    break
                    
corpus_fname = 'data/conan.txt'
corpus = PairCorpus(corpus_fname, yield_pair=False)
for num, pair in enumerate(corpus):
    if num > 10: break
    print(pair)

테니스 좋아하니
네 스릴 있어서 좋아요
네 스릴 있어서 좋아요
스릴이 있는 거구나
스릴이 있는 거구나
넌 운이 좋아
넌 운이 좋아
그럴게 곧 더 큰 스릴을느낄 수 있을 거야
한 사람이 곧 살해당할 거야
이 런던 어딘가에서
이 런던 어딘가에서


### Cohesion probability 학습

MaxScoreTokenizer에 이용될 scores를 만듦니다

In [2]:
from cohesion import CohesionProbability

cohesion = CohesionProbability()
cohesion.train(corpus)

In [3]:
scores = cohesion.get_all_cohesion_probabilities()

scores는 {word: (cohesion_l, cohesion_r, frequency_l, frequency_r} 형태로 출력되므로, 우리가 토크나이저에 이용할 cohesion_l 점수만 선택합니다. 

cohesion이 0.01이 넘고 빈도수가 10번 이상인 subwords에 대해서만 scores를 만들었습니다. 

In [4]:
print('before |scores| = %d' % len(scores))
scores = {word:s[0] for word, s in scores.items() if (s[0] > 0.01 and s[2] > 10)}
print('after |scores| = %d' % len(scores))

before |scores| = 606306
after |scores| = 100284


In [5]:
import pickle

with open('./conversationbot/conan_scores.pkl', 'wb') as f:
    pickle.dump(scores, f)

### MaxScoreTokenizer 만들기

In [6]:
from tokenizer import MaxScoreTokenizer

tokenizer = MaxScoreTokenizer(scores=scores)
tokenizer.tokenize('코난이건무슨일이죠살인사건인가요')

['코난', '이건', '무슨', '일이', '죠', '살인', '사건', '인가요']

### Similar sends를 tokenization 시킨 코퍼스 만들기

In [7]:
corpus.yield_pair = True
with open('./data/conan_send_tokenized_corpus.txt', 'w', encoding='utf-8') as f:
    for send, reply in corpus:
        send = ' '.join(tokenizer.tokenize(send))
        f.write('%s\t%s\n' % (send, reply))

## Chatbot 구성요소 학습하기

### send2reply

In [8]:
unique_send_set = defaultdict(lambda: len(unique_send_set))

for c in 'aabacdeda':
    print(c)
    print(unique_send_set[c])

NameError: name 'defaultdict' is not defined

In [9]:
corpus_fname = './data/conan_send_tokenized_corpus.txt'
corpus = PairCorpus(corpus_fname)

for num, pair in enumerate(corpus):
    if num > 5: break
    print(pair)

('테니 스 좋아 하니', '네 스릴 있어서 좋아요')
('네 스릴 있어 서 좋아 요', '스릴이 있는 거구나')
('스릴이 있는 거구나', '넌 운이 좋아')
('넌 운이 좋아', '그럴게 곧 더 큰 스릴을느낄 수 있을 거야')
('한 사람 이 곧 살해 당할 거야', '이 런던 어딘가에서')
('이 런던 어딘가에 서', '네 눈앞에서 말이야')


In [10]:
%%time
from send2reply import Send2Reply
send2reply = Send2Reply()
send2reply.train(corpus)

Wall time: 6.24 s


In [11]:
send2reply.save('./conversationbot/conan_send2reply')

In [12]:
print('# sends = %d, # replys = %d' % (len(send2reply.send_set), len(send2reply.reply_set)))

# sends = 293324, # replys = 302334


### Vectorizer와 send x 만들어서 Indexer에 넣기

In [13]:
from vectorizer import Vectorizer
vectorizer = Vectorizer(tokenizer=tokenizer.tokenize)
send_x = vectorizer.fit_transform(send2reply.send_set)

In [14]:
from indexer import FullSearchIndexer

indexer = FullSearchIndexer(send_x)
indexer.save('./conversationbot/conan_index')

### Chatbot 구성요소를 모두 넣어 나루토봇 만들기

In [15]:
from conversation_chatbot import ConversationBot

conversation_bot = ConversationBot(vectorizer, indexer, send2reply)

In [16]:
conversation_bot.process('이건살인사건이야', n_similar_sends=5, n_reply=10)

[('그건 아직 모르겠지만', 5),
 ('권총', 3),
 ('카메라 앞에서 일어난 불가능 범죄', 2),
 ('그렇게 되면 수상한 사람은', 2),
 ('바로 경찰에 연락을 아 네', 2),
 ('사실은', 1),
 ('나는 살인사건을 목격하고 말았나 보구나', 1),
 ('명탐정 마구레 의 대본은', 1),
 ('이 불가능 살인의 수수께끼는', 1),
 ('뉴스도 안보나', 1)]

In [17]:
conversation_bot.process('누가 범인인지 너는 알고있지', n_similar_sends=5, n_reply=10)

[('이게 무슨짓이야', 19),
 ('누가 좀 구해줘요', 9),
 ('그래', 6),
 ('일전에 전학 온', 5),
 ('하지만 설마', 4),
 ('인기 여배우가 투신자살한지난 주 그 사건', 4),
 ('어머 또 감기', 3),
 ('큰일이야', 2),
 ('코 코난군', 2),
 ('테이탄 고등학교 2학년 스즈키 소노코', 2)]

In [18]:
conversation_bot.process('안녕 난 코난이야', n_similar_sends=5, n_reply=10)

[('코난 무슨 일이야', 29),
 ('그쵸 아저씨', 19),
 ('코난', 18),
 ('잠깐 학생', 15),
 ('잘 봐두도록 하라', 14),
 ('화장실은 여기 있는데', 14),
 ('경부님을 안내해 드려', 10),
 ('무사하구나', 10),
 ('뭐하는 거야 쿠도 군', 8),
 ('이 욕탕 굉장해', 8)]