## テキストのOne-Hotエンコーディング

このノートブックでは、one-hotエンコーディングを実装します。実際のプロジェクトでは、scikit-learnの実装を使うことのほうが多いでしょう。

In [1]:
documents = [
    "Dog bites man.",
    "Man bites dog.",
    "Dog eats meat.",
    "Man eats food."
]
processed_docs = [doc.lower().replace(".", "") for doc in documents]
processed_docs

['dog bites man', 'man bites dog', 'dog eats meat', 'man eats food']

In [2]:
# ボキャブラリの構築
vocab = {}
count = 0
for doc in processed_docs:
    for word in doc.split():
        if word not in vocab:
            count = count + 1
            vocab[word] = count
print(vocab)

{'dog': 1, 'bites': 2, 'man': 3, 'eats': 4, 'meat': 5, 'food': 6}


In [3]:
# 与えたテキストに対応するone-hot表現を取得
# 単語がボキャブラリに存在する場合、その表現が返される。
# 存在しない場合は、ゼロのリストが返される。
def get_onehot_vector(somestring):
    onehot_encoded = []
    for word in somestring.split():
        temp = [0] * len(vocab)
        if word in vocab:
            temp[vocab[word] - 1] = 1 # リストのインデックスは1ではなく0から始まるため-1している
        onehot_encoded.append(temp)
    return onehot_encoded

コーパスのテキストに対して、one-hot表現を取得してみましょう。

In [4]:
print(processed_docs[1])
get_onehot_vector(processed_docs[1])

man bites dog


[[0, 0, 1, 0, 0, 0], [0, 1, 0, 0, 0, 0], [1, 0, 0, 0, 0, 0]]

同じボキャブラリを使って、ランダムなテキストに対するone-hot表現を取得してみましょう。

In [5]:
get_onehot_vector("man and dog are good") 

[[0, 0, 1, 0, 0, 0],
 [0, 0, 0, 0, 0, 0],
 [1, 0, 0, 0, 0, 0],
 [0, 0, 0, 0, 0, 0],
 [0, 0, 0, 0, 0, 0]]

In [6]:
get_onehot_vector("man and man are good") 

[[0, 0, 1, 0, 0, 0],
 [0, 0, 0, 0, 0, 0],
 [0, 0, 1, 0, 0, 0],
 [0, 0, 0, 0, 0, 0],
 [0, 0, 0, 0, 0, 0]]

## scikit-learnを用いたOne-hotエンコーディング

ここでは、scikit-learnのOneHotEncoderを用いて、one-hotエンコーディングをしてみましょう。

具体的には、次のことを試します。

* One-Hotエンコーディング: one-hotエンコーディングでは、ボキャブラリの各単語wに、1から|V|の間の一意の整数IDとしてwidを与える。各単語は、0と1からなるV次元の二値ベクトルで表現される。

* ラベルエンコーディング: ラベルエンコーディングでは、コーパスの各単語wを0からn-1までの数値に変換する。ここでnはコーパスに含まれる一意な単語数を意味する。

参考

- [OneHotEncoder](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html)
- [LabelEncoder](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html) respectively.








In [7]:
S1 = 'dog bites man'
S2 = 'man bites dog'
S3 = 'dog eats meat'
S4 = 'man eats food'

In [19]:
from itertools import chain
from sklearn.preprocessing import LabelEncoder, OneHotEncoder

data = [S1.split(), S2.split(), S3.split(), S4.split()]
values = list(chain.from_iterable(data))
print(f"The data: {values}")

# Label Encoding
label_encoder = LabelEncoder()
integer_encoded = label_encoder.fit_transform(values)
print(f"Label Encoded: {integer_encoded}")

# One-Hot Encoding
onehot_encoder = OneHotEncoder()
onehot_encoded = onehot_encoder.fit_transform(data).toarray()
print(f"Onehot Encoded Matrix:\n{onehot_encoded}")

The data: ['dog', 'bites', 'man', 'man', 'bites', 'dog', 'dog', 'eats', 'meat', 'man', 'eats', 'food']
Label Encoded: [1 0 4 4 0 1 1 2 5 4 2 3]
Onehot Encoded Matrix:
[[1. 0. 1. 0. 0. 0. 1. 0.]
 [0. 1. 1. 0. 1. 0. 0. 0.]
 [1. 0. 0. 1. 0. 0. 0. 1.]
 [0. 1. 0. 1. 0. 1. 0. 0.]]
