## One-Hot Encoding: 独热编码

**独热编码**是一种在张量中表示分类数据非常有用的技术。

比如：我们有一个红、绿、蓝三个分类。   
在独热编码之前，你可能只是用文字（红、绿、蓝）来表示，但是计算机是不理解这些文字的。
那么我们可以用三个数字来表示这个变量。比如：
- `[1, 0, 0]`: 来表示`红`。
- `[0, 1, 0]`: 来表示`绿`。
- `[0, 0, 1]`: 来表示`蓝`。

  这样计算机就可以通过这三个数字组合来识别不同的颜色了。

另外可以用一个长度为10的张量，来分别表示数字`0 ~ 9`。

In [1]:
import torch
import numpy as np

### 1. 独热编码示例：RGB

In [2]:
# 3个基础色
base_color = ["红", "绿", "蓝"]

In [3]:
# 颜色列表
colors = np.random.choice(base_color, 10)
colors

array(['蓝', '绿', '红', '绿', '蓝', '蓝', '绿', '绿', '蓝', '绿'], dtype='<U1')

In [4]:
# 颜色张量
colors_t = torch.zeros(len(colors), len(base_color))
colors_t

tensor([[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]])

现在我们想让：
- `[1, 0, 0]`: 来表示`红`。
- `[0, 1, 0]`: 来表示`绿`。
- `[0, 0, 1]`: 来表示`蓝`。

In [5]:
base_color.index("红"),base_color.index("绿"),base_color.index("蓝")

(0, 1, 2)

In [6]:
for i, color in enumerate(colors):
    # 修改colors_t
    color_index = base_color.index(color)
    colors_t[i][color_index] = 1
# 再次查看colors_t
colors_t

tensor([[0., 0., 1.],
        [0., 1., 0.],
        [1., 0., 0.],
        [0., 1., 0.],
        [0., 0., 1.],
        [0., 0., 1.],
        [0., 1., 0.],
        [0., 1., 0.],
        [0., 0., 1.],
        [0., 1., 0.]])

In [7]:
# 查看颜色，是否正确
colors[5], colors_t[5]

('蓝', tensor([0., 0., 1.]))

### 2. 独热编码示例：文本

#### 2.1 首先准备一段文本


In [8]:
text = """
PyTorch is an optimized tensor library for deep learning using GPUs and CPUs.

Features described in this documentation are classified by release status:

Stable: These features will be maintained long-term and there should generally be no major performance limitations or gaps in documentation. We also expect to maintain backwards compatibility (although breaking changes can happen and notice will be given one release ahead of time).

Beta: These features are tagged as Beta because the API may change based on user feedback, because the performance needs to improve, or because coverage across operators is not yet complete. For Beta features, we are committing to seeing the feature through to the Stable classification. We are not, however, committing to backwards compatibility.

Prototype: These features are typically not available as part of binary distributions like PyPI or Conda, except sometimes behind run-time flags, and are at an early stage for feedback and testing.
"""

In [9]:
lines = [line for line in text.split("\n") if line]
len(lines)

5

#### 2.2 独热编码：ASCII字符

ASCII字符总共是128个字符，那么我们独热编码长度也应该是128.

In [10]:
line = lines[0]
# 查看第一行的长度
print(len(line))
line

77


'PyTorch is an optimized tensor library for deep learning using GPUs and CPUs.'

**先对第一行，编码一下：**

In [11]:
line_letter_tensor = torch.zeros(len(line), 128)

In [12]:
line_letter_tensor[0]

tensor([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0.])

In [13]:
line_letter_tensor.shape

torch.Size([77, 128])

In [14]:
# 根据字符，修改一下line_letter_tensor
for i, letter in enumerate(line.strip()):
    # ASCII是128个字符
    letter_index = ord(letter) if ord(letter) <= 128 else 0
    
    if i <= 5:
        print(i, letter, ord(letter), letter_index)
    
    # 对字符所在的位置设置为1
    line_letter_tensor[i][letter_index] = 1

# 查看第一个值
line_letter_tensor[0]

0 P 80 80
1 y 121 121
2 T 84 84
3 o 111 111
4 r 114 114
5 c 99 99


tensor([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0.])

**注意：** 上面的文档编码是ASSII的，如果是中文，那么会超出`ord(letter)`128的, 超出范围的我们给置为`0`。

In [15]:
line_letter_tensor[0][80]

tensor(1.)

#### 2.2 独热编码：单词

为了简化，我们把所有字符改为小写，然后去掉各种分隔符，然后根据空格来分割文本，把文本分割成一个一个的单词。

In [16]:
# 分割单词
def text_to_word(source):
    # 根据空格分割了文本
    word_list = source.lower().replace("\n", " ").split()
    
    # 把标点符号去掉
    punctuation = ',.;:!?"_-'
    word_list = [word.strip(punctuation) for word in word_list]

    # 返回单词列表
    return word_list

In [17]:
# 先验证一下第一行
line = lines[0]
print(line)

text_to_word(line)

PyTorch is an optimized tensor library for deep learning using GPUs and CPUs.


['pytorch',
 'is',
 'an',
 'optimized',
 'tensor',
 'library',
 'for',
 'deep',
 'learning',
 'using',
 'gpus',
 'and',
 'cpus']

In [18]:
# 文本的单词列表
words_list = text_to_word(text)
len(words_list)

150

In [19]:
# 获取所有的文本中的单词集合，且排序一下
words_set = sorted(set(words_list))
# 查看单词的长度
len(words_set)

100

In [20]:
# 给单词编一个号
word_to_index_dict = {
    word: i for (i, word) in enumerate(words_set)
}
# 查看deep的index
word_to_index_dict["deep"]

31

In [21]:
# 单词张量
words_tensor = torch.zeros(len(words_list), len(word_to_index_dict))
words_tensor.shape

torch.Size([150, 100])

In [22]:
# 修改words_tensor中每个单词的独热编码值
for i, word in enumerate(words_list):
    # 获取单词的索引
    word_index = word_to_index_dict.get(word, 0)  # 防止有不在里面的单词
    # 修改单词的独热编码
    words_tensor[i][word_index] = 1
    if i < 10:
        print("{:3} {:4} {}".format(i, word_index, word))

  0   75 pytorch
  1   51 is
  2    4 an
  3   69 optimized
  4   85 tensor
  5   53 library
  6   42 for
  7   31 deep
  8   52 learning
  9   96 using


In [23]:
# 现在查看第1个单词的独热编码
words_tensor[0]

tensor([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [24]:
words_tensor.shape

torch.Size([150, 100])

上面表示：我们有一个长度为150的句子，编码空间大小为`100`（我们单词字典中单词数量是100）。   
**当文本很大的时候，单词的组合是可以千千万的。** 所以根据字符组合的**单词独热编码** 我们项目中也是不会用的。

**独热编码**是一种在张量中表示分类数据非常有用的技术，但是当要编码的数据量很大时，独热编码就特别吃力或者无能为力了。  

这个时候我们就考虑使用**文本嵌入**。