In [1]:
from sklearn.preprocessing import OneHotEncoder
import numpy as np
import jieba

  import pkg_resources


In [2]:
# 完整的句子
sentence = "我喜歡閱讀書籍，也喜歡使用電腦來學習新的知識"

In [3]:
# 使用 jieba 進行斷詞
words = list(jieba.cut(sentence))
words

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\darren\AppData\Local\Temp\jieba.cache
Loading model cost 0.939 seconds.
Prefix dict has been built successfully.


['我', '喜歡', '閱讀', '書籍', '，', '也', '喜歡', '使用', '電腦來', '學習', '新', '的', '知識']

In [4]:
# 轉換為 OneHotEncoder 能接受的二維陣列形式
# .reshape(-1, 1) 指的是將一維陣列轉換為二維陣列，
# 其中 -1 表示自動計算列數，1 表示每列只有一個元素 (代表只有一個欄位)
words_array = np.array(words).reshape(-1, 1)
words_array

array([['我'],
       ['喜歡'],
       ['閱讀'],
       ['書籍'],
       ['，'],
       ['也'],
       ['喜歡'],
       ['使用'],
       ['電腦來'],
       ['學習'],
       ['新'],
       ['的'],
       ['知識']], dtype='<U3')

In [5]:
# 建立 OneHotEncoder 物件
# sparse_output=False 用於指定輸出為密集陣列而非稀疏矩陣
# 例如: [[0, 1, 0], [1, 0, 0], ...]
onehot_encoder = OneHotEncoder(sparse_output=False)

In [6]:
# 進行 one-hot encoding
onehot_encoded = onehot_encoder.fit_transform(words_array)

In [7]:
# 顯示 OneHotEncoder 的分類 (類似機器學習當中的特徵名稱)
'''
範例輸出：
[array(['也', '使用', '來', '喜歡', '學習', '我', '新', '書籍', '的', '知識', '閱讀', '電腦','，'], dtype='<U2')]

<U2 表示這些字串的最大長度為 2 個 Unicode 字元
'''
print(onehot_encoder.categories_)

[array(['也', '使用', '喜歡', '學習', '我', '新', '書籍', '的', '知識', '閱讀', '電腦來', '，'],
      dtype='<U3')]


In [8]:
# 比照原始句子，顯示 one-hot encoding 的結果
'''
原始斷詞結果
['我', '喜歡', '閱讀', '書籍', '，', '也', '喜歡', '使用', '電腦', '來', '學習', '新', '的', '知識']
'''
print(onehot_encoded)

[[0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1.]
 [1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0.]]


In [9]:
'''
原始斷詞結果
['我', '喜歡', '閱讀', '書籍', '，', '也', '喜歡', '使用', '電腦', '來', '學習', '新', '的', '知識']
'''
# 找出「我」的 One-Hot Encoding
print(onehot_encoded[0,:])

# 找出「閱讀」的 One-Hot Encoding
print(onehot_encoded[2,:])

[0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0.]
[0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0.]
