- 語彙の例

Text: 'the cat is out of bag'  
Vocabulary: {'the': 0, 'cat': 1, 'is':2, 'out': 3, 'of': 4, 'bag': 5}

## One-hotエンコーディング

In [1]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer(binary=True)  # binary=Trueで頻度を考慮しない
docs = ['the cat is out of the bag', 'dogs are']
bow = vectorizer.fit_transform(docs)

In [2]:
bow.toarray()

array([[0, 1, 1, 0, 1, 1, 1, 1],
       [1, 0, 0, 1, 0, 0, 0, 0]])

In [4]:
vectorizer.vocabulary_

{'the': 7, 'cat': 2, 'is': 4, 'out': 6, 'of': 5, 'bag': 1, 'dogs': 3, 'are': 0}

## Countエンコーディング
- ある単語がテキストに存在するか否かだけでなく、その頻度を考慮してベクトルを作成する
    - 頻度が高い単語を重要視するようなベクトルができる

In [5]:
vectorizer = CountVectorizer(binary=False)
docs = ['the cat is out of the bag', 'dogs are']
bow = vectorizer.fit_transform(docs)
bow.toarray()

array([[0, 1, 1, 0, 1, 1, 1, 2],
       [1, 0, 0, 1, 0, 0, 0, 0]])

## tf-idf
- 単語の出現頻度のみで重み付けすると、theのようなよく出るが、重要でない単語の重みが大きくなる
- tf-idfでは、**ある単語が出現する文書数の逆数idf**を掛けて単語の重みを表現する
- 頻繁に出現する単語を重要とみなしつつ、多くの文書に出現する単語は重要で無い

In [8]:
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer()
docs = ['the cat is out of the bag', 'the dogs are']
tfidf = vectorizer.fit_transform(docs)

In [9]:
import pandas as pd

vocab = vectorizer.get_feature_names()
pd.DataFrame(tfidf.toarray(), columns=vocab).round(2)

Unnamed: 0,are,bag,cat,dogs,is,of,out,the
0,0.0,0.38,0.38,0.0,0.38,0.38,0.38,0.54
1,0.63,0.0,0.0,0.63,0.0,0.0,0.0,0.45


In [10]:
from janome.tokenizer import Tokenizer
t = Tokenizer(wakati=True)

In [11]:
vectorizer = CountVectorizer(tokenizer=t.tokenize)
docs = ['猫の子子猫', '獅子の子子獅子']
bow = vectorizer.fit_transform(docs)

In [12]:
vocab = vectorizer.get_feature_names()
pd.DataFrame(bow.toarray(), columns=vocab)

Unnamed: 0,の,子,子猫,猫,獅子
0,1,1,1,1,0
1,1,2,0,0,2


## 語順を考慮したテキスト表現
- BoWは語順の情報が失われるため、隣接する単語をひとまとめにする方が良い

In [13]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer(ngram_range=(2, 2))
docs = ['the cat is out of the bag', 'dogs are']
bow = vectorizer.fit_transform(docs)
vectorizer.vocabulary_

{'the cat': 6,
 'cat is': 0,
 'is out': 2,
 'out of': 4,
 'of the': 3,
 'the bag': 5,
 'dogs are': 1}