# テキスト特徴の表現方法

scikit-learnでは"テキスト特徴(text features)"を簡単に符号化する方法が提供されている。

In [1]:
sample = [
    'feature engineering',
    'feature selection',
    'feature extraction'
]

このようなデータを符号化する最も簡単な方法の一つは、単語数によるものである。以下では各単語の出現数を数える方法を紹介する。

In [2]:
from sklearn.feature_extraction.text import CountVectorizer

vec = CountVectorizer()
X = vec.fit_transform(sample)
X

<3x4 sparse matrix of type '<class 'numpy.int64'>'
	with 6 stored elements in Compressed Sparse Row format>

In [3]:
X.toarray()

array([[1, 0, 1, 0],
       [0, 0, 1, 1],
       [0, 1, 1, 0]], dtype=int64)

In [4]:
# 特徴名の出力
vec.get_feature_names()

['engineering', 'extraction', 'feature', 'selection']

## TF-IDF(term frequency-inverse document frequency)単語用語頻度･逆文書頻度
その単語がどのくらいの頻度で出現するか(IDF)によって、単語数(TF)の重み付けを行う。<br>
`from sklearn.feature_extraction.text import TfidfVectorizer`

In [5]:
from sklearn.feature_extraction.text import TfidfVectorizer

vec = TfidfVectorizer()
X = vec.fit_transform(sample)
X.toarray()

array([[0.861037  , 0.        , 0.50854232, 0.        ],
       [0.        , 0.        , 0.50854232, 0.861037  ],
       [0.        , 0.861037  , 0.50854232, 0.        ]])

In [6]:
vec.get_feature_names()

['engineering', 'extraction', 'feature', 'selection']