<a href="https://colab.research.google.com/github/luojie1024/TextClassification/blob/main/One_Hot.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 独热编码(One-Hot)

In [14]:
import numpy as np

## 0 语料准备

In [30]:
# 语料
corpus = ['这 是 第一个 文档',
        '这是 第二个 文档',
        '这是 最后 一个 文档',
        '现在 没有 文档 了']

## 1. 手动实现（One-Hot）

In [103]:
# 词袋
words=[]
for corpu in corpus:
  words.extend(corpu.split())

# 词的列表
word_list=list(set(words))
# 字典
word_dct= {word:index for index,word in enumerate(word_list)}
# 词典大小
vocab_size=len(word_dct)
print(word_dct)

{'没有': 0, '文档': 1, '一个': 2, '现在': 3, '这': 4, '最后': 5, '这是': 6, '了': 7, '是': 8, '第一个': 9, '第二个': 10}


In [104]:
def get_one_hot(index):
  """
  获得one hot编码
  """
  # 初始化全0列表
  one_hot=[0 for i in range(vocab_size)]
  # 标记对应位置为1
  one_hot[index]=1
  # 将列表转换成矩阵
  return np.array(one_hot)

In [105]:
get_one_hot(1)

array([0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0])

### 原始句子

In [106]:
corpus[0]

'这 是 第一个 文档'

### 转换成索引

In [107]:
indexs=[word_dct[i] for i in corpus[0].split()]
indexs

[4, 8, 9, 1]

### 句子-> 索引 ->one hot

In [108]:
one_hot_list=np.array([get_one_hot(index) for index in indexs])
one_hot_list

array([[0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0],
       [0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0]])

## 2 . Sklearn实现

In [109]:
from sklearn.preprocessing import OneHotEncoder,LabelBinarizer

### 初始化编码器

In [120]:
lb = LabelBinarizer()
lb.fit(word_list)
# lb.classes_=np.array(word_list)
lb.classes_

### 原始句子

In [121]:
sentence=corpus[0].split()
sentence

['这', '是', '第一个', '文档']

### 编码（词列表-> one hot）

In [122]:
encode_sentence=lb.transform(sentence)
encode_sentence

array([[0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0],
       [0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0]])

### 解码（one hot->词列表）

In [114]:
lb.inverse_transform(encode_sentence)

array(['这', '是', '第一个', '文档'], dtype='<U3')

# 参考
[1] [Sklearn官方文档](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelBinarizer.html#sklearn.preprocessing.LabelBinarizer)