In [2]:
from janome.tokenizer import Tokenizer

In [3]:
t = Tokenizer()
t

<janome.tokenizer.Tokenizer at 0x10b2488b0>

In [4]:
text = '東京都でおいしいビールを飲もう。'
tokens = t.tokenize(text)
len(tokens)

9

In [5]:
for token in tokens:
    print(token)

東京	名詞,固有名詞,地域,一般,*,*,東京,トウキョウ,トーキョー
都	名詞,接尾,地域,*,*,*,都,ト,ト
で	助詞,格助詞,一般,*,*,*,で,デ,デ
おいしい	形容詞,自立,*,*,形容詞・イ段,基本形,おいしい,オイシイ,オイシイ
ビール	名詞,一般,*,*,*,*,ビール,ビール,ビール
を	助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
飲も	動詞,自立,*,*,五段・マ行,未然ウ接続,飲む,ノモ,ノモ
う	助動詞,*,*,*,不変化型,基本形,う,ウ,ウ
。	記号,句点,*,*,*,*,。,。,。


In [7]:
t.tokenize(text, wakati = True)

['東京', '都', 'で', 'おいしい', 'ビール', 'を', '飲も', 'う', '。']

In [8]:
sentences = [
    'おいしいビールを飲む',
    'コーヒーを飲む',
    'おいしいクラフトビールを買う',
]

words_list = []
for sentence in sentences:
    words_list.append(t.tokenize(sentence, wakati = True))

words_list

[['おいしい', 'ビール', 'を', '飲む'],
 ['コーヒー', 'を', '飲む'],
 ['おいしい', 'クラフト', 'ビール', 'を', '買う']]

In [9]:
unique_words = []
for words in words_list:
    for word in words:
        if word not in unique_words:
            unique_words.append(word)

unique_words

['おいしい', 'ビール', 'を', '飲む', 'コーヒー', 'クラフト', '買う']

In [10]:
bow_list = [] # bow: Bag of Words
for words in words_list:
    bag_of_words = []
    for unique_word in unique_words:
        num = words.count(unique_word)
        bag_of_words.append(num)
    bow_list.append(bag_of_words)

bow_list

[[1, 1, 1, 1, 0, 0, 0], [0, 0, 1, 1, 1, 0, 0], [1, 1, 1, 0, 0, 1, 1]]

In [12]:
# IDF (Inverse Document Frequency): ある単語を含む文章がどれくらいあるか。出てこないほど値は大きくなる。すべてに出てくるなら0になる
# ここでは各単語(unique_words)ごとの IDF を調べる
from math import log

num_of_sentences = len(sentences) # 文章の個数

idf = []
for i in range(len(unique_words)):
    count = 0
    for bow in bow_list:
        if bow[i] == 1:
            count += 1
    idf.append(log((num_of_sentences + 1) / (count + 1))) # 0除算にならないように分母分子に1を足している

idf

[0.28768207245178085,
 0.28768207245178085,
 0.0,
 0.28768207245178085,
 0.6931471805599453,
 0.6931471805599453,
 0.6931471805599453]

In [13]:
bow = bow_list[1] # 「コーヒーを飲む」の文章
# ['おいしい', 'ビール', 'を', '飲む', 'コーヒー', 'クラフト', '買う']
# [0, 0, 1, 1, 1, 0, 0]
num_of_words = sum(bow)

tfidf = []
for i, value in enumerate(bow):
    tf = value / num_of_words
    tfidf.append(tf * (idf[i] + 1))

tfidf # 「コーヒー」が特徴的なのでもっとも高いスコアになる

[0.0,
 0.0,
 0.3333333333333333,
 0.42922735748392693,
 0.5643823935199818,
 0.0,
 0.0]