In [1]:
import MeCab

In [2]:
mc = MeCab.Tagger("-Ochasen")
parsed = mc.parse("すもももももももものうち")
print(parsed)

すもも	スモモ	すもも	名詞-一般		
も	モ	も	助詞-係助詞		
もも	モモ	もも	名詞-一般		
も	モ	も	助詞-係助詞		
もも	モモ	もも	名詞-一般		
の	ノ	の	助詞-連体化		
うち	ウチ	うち	名詞-非自立-副詞可能		
EOS



In [3]:
mw = MeCab.Tagger("-Owakati")
parsed = mw.parse("すもももももももものうち")
words = parsed.rstrip().split(' ')
words

['すもも', 'も', 'もも', 'も', 'もも', 'の', 'うち']

In [4]:
parsed2 = mw.parse('プログラムは思った通りには動かない。書いたとおりに動くのだ。')
words2 = parsed2.rstrip().split(' ')
words2

['プログラム',
 'は',
 '思っ',
 'た',
 '通り',
 'に',
 'は',
 '動か',
 'ない',
 '。',
 '書い',
 'た',
 'とおり',
 'に',
 '動く',
 'の',
 'だ',
 '。']

In [5]:
raw_corpus = [words, words2]
whole_words = sum(raw_corpus, [])
whole_words

['すもも',
 'も',
 'もも',
 'も',
 'もも',
 'の',
 'うち',
 'プログラム',
 'は',
 '思っ',
 'た',
 '通り',
 'に',
 'は',
 '動か',
 'ない',
 '。',
 '書い',
 'た',
 'とおり',
 'に',
 '動く',
 'の',
 'だ',
 '。']

In [6]:
from collections import Counter
words_with_count = list(Counter(whole_words).items())
words_with_count

[('すもも', 1),
 ('も', 2),
 ('もも', 2),
 ('の', 2),
 ('うち', 1),
 ('プログラム', 1),
 ('は', 2),
 ('思っ', 1),
 ('た', 2),
 ('通り', 1),
 ('に', 2),
 ('動か', 1),
 ('ない', 1),
 ('。', 2),
 ('書い', 1),
 ('とおり', 1),
 ('動く', 1),
 ('だ', 1)]

In [7]:
sorted_words = sorted(words_with_count, key=lambda t: (t[1], t[0]), reverse=True)
sorted_words

[('もも', 2),
 ('も', 2),
 ('は', 2),
 ('の', 2),
 ('に', 2),
 ('た', 2),
 ('。', 2),
 ('通り', 1),
 ('書い', 1),
 ('思っ', 1),
 ('動く', 1),
 ('動か', 1),
 ('プログラム', 1),
 ('ない', 1),
 ('とおり', 1),
 ('だ', 1),
 ('すもも', 1),
 ('うち', 1)]

In [8]:
vocabulary = dict((word, i) for i, (word, count) in enumerate(sorted_words))
vocabulary

{'もも': 0,
 'も': 1,
 'は': 2,
 'の': 3,
 'に': 4,
 'た': 5,
 '。': 6,
 '通り': 7,
 '書い': 8,
 '思っ': 9,
 '動く': 10,
 '動か': 11,
 'プログラム': 12,
 'ない': 13,
 'とおり': 14,
 'だ': 15,
 'すもも': 16,
 'うち': 17}

In [9]:
corpus = [[vocabulary[word] for word in words] for words in raw_corpus]
corpus

[[16, 1, 0, 1, 0, 3, 17],
 [12, 2, 9, 5, 7, 4, 2, 11, 13, 6, 8, 5, 14, 4, 10, 3, 15, 6]]

In [10]:
import numpy as np

In [11]:
eye = np.eye(len(vocabulary))
eye

array([[1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0.],
       [0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0.],
       [0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0.],
       [0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0.],
       [0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0.,
        0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0.,
        0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0.,
        0., 0.],
       [0., 0., 0., 0

In [12]:
[eye[words] for words in corpus]

[array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
         1., 0.],
        [0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
         0., 0.],
        [1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
         0., 0.],
        [0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
         0., 0.],
        [1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
         0., 0.],
        [0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
         0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
         0., 1.]]),
 array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0.,
         0., 0.],
        [0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
         0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0.,
         0., 0.],
        [0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
         0., 0.