In [1]:
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer

In [7]:
np.set_printoptions(precision=2)
 
docs = np.array([
        'バナナ リンゴ みかん',      # 文書１
        'バナナ リンゴ',      # 文書２
        'モモ みかん',   # 文書３
        'みかん バナナ ナシ'            # 文書４
        ])

# vectorizer = TfidfVectorizer(use_idf=True, token_pattern=u'(?u)\\b\\w+\\b')
vectorizer = TfidfVectorizer(use_idf=True)
vecs = vectorizer.fit_transform(docs)
print(vecs.toarray())

# 行方向に文書、列方向に単語が並んでいます。
# 単語と列の対応は下記で確認できます。
# 上記サンプルで、token_pattern=u'(?u)\\b\\w+\\b’ を指定しました。これは、文字列長が 1 の単語を処理対象に含めることを意味します。
# この指定をはずすと、長さ一文字の単語がまったくカウントされなくなります。

[[0.53 0.   0.53 0.   0.66]
 [0.   0.   0.63 0.   0.78]
 [0.54 0.   0.   0.84 0.  ]
 [0.47 0.74 0.47 0.   0.  ]]


In [8]:
for k,v in sorted(vectorizer.vocabulary_.items(), key=lambda x:x[1]):
    print(k,v)

みかん 0
ナシ 1
バナナ 2
モモ 3
リンゴ 4


In [10]:
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans
 
docs = np.array([
        '牛乳 を 買う',
        'パン を 買う',
        'パン を 食べる',
        'お菓子 を 食べる',
        '本 を 買う',
        'パン と お菓子 を 食べる',
        'お菓子 を 買う',
        'パン と パン を 食べる'
        ])
#
# ベクトル化
#
vectorizer = TfidfVectorizer(use_idf=True, token_pattern=u'(?u)\\b\\w+\\b')
vecs = vectorizer.fit_transform(docs)
 
print(vecs.toarray())

[[0.   0.   0.32 0.   0.   0.8  0.51 0.  ]
 [0.   0.   0.41 0.65 0.   0.   0.65 0.  ]
 [0.   0.   0.41 0.65 0.   0.   0.   0.65]
 [0.69 0.   0.38 0.   0.   0.   0.   0.61]
 [0.   0.   0.32 0.   0.8  0.   0.51 0.  ]
 [0.49 0.57 0.27 0.43 0.   0.   0.   0.43]
 [0.69 0.   0.38 0.   0.   0.   0.61 0.  ]
 [0.   0.49 0.24 0.75 0.   0.   0.   0.37]]


In [11]:
clusters = KMeans(n_clusters=2, random_state=0).fit_predict(vecs)
for doc, cls in zip(docs, clusters):
    print(cls, doc)

0 牛乳 を 買う
0 パン を 買う
1 パン を 食べる
1 お菓子 を 食べる
0 本 を 買う
1 パン と お菓子 を 食べる
0 お菓子 を 買う
1 パン と パン を 食べる
