In [1]:
import numpy as np
import scipy as sp
import matplotlib.pyplot as plt
%matplotlib inline

前の章ではデータに正解ラベルがついていた．これを**教師あり学習** という．  
ここでは，ラベルがない場合，**教師なし学習**を考えてみる．  
<br>
教師なし学習では，データだけからあるパターンを見つける．  
例えば，質問サイトで，ある質問に関連するページを見つけるには，文書ごとの類似度を全て算出すれば良いと考えられる．  
しかしこの方法は計算量が膨大になってしまう．  
素早く関連する文書を見つけるためには，**クラスタリング**という手法が使えそうである．  
こちらもテキストデータ同士で類似度を算出する方法が必要になるが，ここではSciKitライブラリの機能を使ってみたいと思う．

# 文書の関連性を計測する
まずテキストデータを意味のある数字に変換したい．

## やってはいけないこと
テキストデータの類似度を求めるには，**レーベンシュタイン距離(編集距離とも呼ばれる)** が利用できそう．  
文字ごとの編集距離を求めると時間がかかり過ぎてしまうので，単語を最小単位として扱い，文章全体で編集距離を計測しようとも思ってみる．  
しかし依然編集距離のオーダーは大きく，時間がかかる．  
また，同じ単語が2つの文書に出現していて，位置が異なる場合にも編集距離は発生してしまうので，この方法はロバストであるとは言えない．

## どうやるべきか
**bag-of-words**を使ってみる．  
単語の出現回数を特徴量として扱うことで，1つの文書を1つのベクトルとして扱える．  
(しかし，この方法で最近傍点を見つけるのには時間がかかりすぎる．)  
**bag-of-words**によってクラスタリング処理を行う手順を示す．  
1. 各文書から特徴量を抽出し，特徴ベクトルの形で保存する
1. 特徴ベクトルに対してクラスタリングを行う
1. 投稿された質問文書に対して，クラスタを決定する
1. このクラスタに属する文書を他に集め，多様性を増す

# 前処理: 共通する単語の出現回数を類似度として計測する
scikitのCountVectorizerでbag-of-wordsを作れる  

In [4]:
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer(min_df=1)
print(vectorizer)

CountVectorizer(analyzer='word', binary=False, decode_error='strict',
        dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
        lowercase=True, max_df=1.0, max_features=None, min_df=1,
        ngram_range=(1, 1), preprocessor=None, stop_words=None,
        strip_accents=None, token_pattern='(?u)\\b\\w\\w+\\b',
        tokenizer=None, vocabulary=None)


min_dfはその数より出現回数の小さい単語を無視する．  
analizerは，単語レベルで出現回数のカウントを行なっていることを意味する．  
token_pattenでは単語の決定方法を定義．例えばcross-validatedをcrossとvalidatedに分けるかを設定できる  

In [12]:
content = ["How to format my hard disk", " Hard disk format problems "]
X = vectorizer.fit_transform(content)
print("vocabulary:", vectorizer.get_feature_names())
print(X.toarray(), "\n\n", X.toarray().transpose())

vocabulary: ['disk', 'format', 'hard', 'how', 'my', 'problems', 'to']
[[1 1 1 1 1 0 1]
 [1 1 1 0 0 1 0]] 

 [[1 1]
 [1 1]
 [1 1]
 [1 0]
 [1 0]
 [0 1]
 [1 0]]


## 単語を数える

In [13]:
txt1 = "This is a toy post about machine learning. Actually, it contains not much interesting stuff."
txt2 = "Imaging databases can get huge."
txt3 = "Most imaging databases safe images permanently."
txt4 = "Imaging databases store data."
txt5 = "Imaging databases store data. Imaging databases store data. Imaging databases store data."

posts = [txt1, txt2, txt3, txt4, txt5]
X_train = vectorizer.fit_transform(posts)
num_samples, num_features = X_train.shape
print(f"#samples: {num_samples}, #features: {num_features}")

#samples: 5, #features: 25
