In [42]:
import MeCab
import numpy as np

In [52]:
class Voc:
    def __init__(self):
        self.word2index = {"EOS": 0}
        self.word2count = {"EOS": 0}
        self.num_words = 1
        self.mecab = MeCab.Tagger()
        self.trimmed = False
        
    def addSentence(self, sentence):
        m = self.mecab.parse(sentence)
        m = m[:-1]
        for word_info in m.split("\n"):
            w = word_info.split("\t")[0]
            self.addWord(w)
    
    def addWord(self, word):
        if word not in self.word2index:
            self.word2index[word] = self.num_words
            self.word2count[word] = 1
            self.num_words += 1
        else:
            self.word2count[word] += 1
            
    def trim(self, min_count):
        if self.trimmed: return
        Trimmed = True
        keep_words = []
        for word, count in self.word2count.items():
            if count >= min_count:
                keep_words.append(word)
        self.word2index = {}
        self.word2count = {}
        self.num_words = 3
        for word in keep_words:
            self.addWord(word)

voc = Voc()
voc.addSentence("今日も良い天気")
print(voc.word2index)
print(voc.word2count)

{'EOS': 0, '今日': 1, 'も': 2, '良い': 3, '天気': 4}
{'EOS': 1, '今日': 1, 'も': 1, '良い': 1, '天気': 1}


In [57]:
voc = Voc()
with open("sequence.txt") as file:
    file_it = iter(file)
    for speak, response in zip(file_it, file_it):
        speak.replace("input: ", "")
        response.replace("output: ", "")
        voc.addSentence(speak)
        voc.addSentence(response)
        
voc.trim(5)
print(voc.word2index)

{'EOS': 3, 'input': 4, ':': 5, 'ちょっと': 6, '待っ': 7, 'て': 8, '＜': 9, '笑い': 10, '＞': 11, '。': 12, 'output': 13, '＊': 14, 'おん': 15, 'ち': 16, 'き': 17, 'あっ': 18, 'ああ': 19, '、': 20, 'ねえ': 21, '山梨': 22, '弁': 23, 'メール': 24, 'が': 25, '来': 26, 'た': 27, 'なんて': 28, '？': 29, 'うん': 30, 'なん': 31, 'か': 32, '引っ越し': 33, 'し': 34, 'じゃん': 35, 'ね': 36, 'あの': 37, '人': 38, 'の': 39, 'とき': 40, 'ま': 41, 'ー': 42, 'ってか': 43, '回さ': 44, 'なかっ': 45, 'たら': 46, 'ぶっ': 47, 'よ': 48, '何': 49, 'それ': 50, 'くれ': 51, 'ない': 52, 'ん': 53, 'くり': 54, '書い': 55, 'ある': 56, 'は': 57, 'ブドウ': 58, 'と': 59, '有名': 60, 'じゃー': 61, 'Ａ': 62, 'から': 63, 'そっ': 64, 'うそ': 65, 'え': 66, 'どう': 67, '落ち': 68, 'けど': 69, 'もう': 70, 'ねー': 71, '取れ': 72, 'これ': 73, 'ほんと': 74, 'や': 75, '無理': 76, 'おしまい': 77, 'な': 78, '詰まっ': 79, 'ちゃう': 80, 'なんか': 81, 'いろんな': 82, 'もの': 83, 'さ': 84, 'る': 85, 'け': 86, 'いろいろ': 87, '落ちる': 88, 'これだけ': 89, 'ほんとに': 90, '受ける': 91, 'こないだ': 92, 'っていう': 93, 'かなん': 94, '（': 95, '）': 96, 'ここ': 97, 'で': 98, 'Ｂ': 99, '電話': 100, 'かかっ': 101, 'やん': 102,