In [2]:
sample=[
    'feature engineering',
    'feature selection',
    'feature extraction'
]

このようなデータを符号化する最も簡単な方法の一つは、単語数(word count)によるものです
各熟語について、その中の各単語の出現数を単純に数えるだけです

In [4]:
from sklearn.feature_extraction.text import CountVectorizer
vec = CountVectorizer()
x = vec.fit_transform(sample)
x.toarray()

array([[1, 0, 1, 0],
       [0, 0, 1, 1],
       [0, 1, 1, 0]], dtype=int64)

これらの数字の意味を確認するために、特徴名を調べるには次のようにします

In [5]:
vec.get_feature_names()

['engineering', 'extraction', 'feature', 'selection']

X内の整数が何を意味するのかがこれで明確になりました。Xの一番上の行に表示されている熟語を見ると'engineering'という単語が１つ、'feature'という単語が１つ出現することがわかります。一方、'extraction'または'selection'という言葉は含まれていません。<br>
元データをさっと確認すれば、その熟語が'feature engineering'であったことは明らかになりますよね。<br>
この方法に欠点が１つあるとすれば、頻出する単語に非常に大きな重みづけをする可能性があるということです。これを解決するための方法は、TF-IDFとよばれる単語がどのくらいの頻度で出現するかによって重み付けをする手法です。

In [6]:
from sklearn.feature_extraction.text import TfidfVectorizer
vec = TfidfVectorizer()
x = vec.fit_transform(sample)
x.toarray()

array([[0.861037  , 0.        , 0.50854232, 0.        ],
       [0.        , 0.        , 0.50854232, 0.861037  ],
       [0.        , 0.861037  , 0.50854232, 0.        ]])

数値は以前よりも小さくなり、3列目が一番大きな影響を受けました。これは３列目が１つの熟語で最も頻繁に使用される単語'feature'に対応しているので意味が通ります。


TF-IDFの数学的背景に興味があるならWikipediaの記事はかなり良い出発点といえます。