# 文本表示（Text Rrepresentation）

## 基础知识
**文本的理解：** 文本是常用的序列化数据类型之一，文本数据可以看作是一个字符序列或词的序列，对于大多数问题，我们通常将文本数据视为词的序列。

**深度学习序列模型：** 如RNN（循环神经网络）及其变体能够较好的对序列化数据建模，可以解决自然语言处理（NLP）中的许多问题，如文本分类、情感分析、文本生成等。

**文本向量化：** 深度学习模型并不能理解文本，因此需要将文本数据转换为数值数据，将文本转换为数值表现形式的过程称为向量化过程，可以用多种方式实现，如*tf-idf（传统机器学习）、独热编码（one-hot或k-hot）、散列编码、文本词嵌入（word embedding）*。

## 词嵌入（Word Embedding）
词嵌入是一种将词表示为连续向量的方法，词嵌入将每个词表示为一个高维空间中的向量，词向量之间的距离可以表示词之间的语义关系，如词义相似度、词义相反度等。

词嵌入实际上是一种将各个单词映射到连续向量空间中的方法，每个单词在向量空间中都有其对应的向量（初始随机化），并且这个向量可以通过神经网络的方式来学习更新，因此这项技术基本集中应用于深度学习领域。

词嵌入用密集的分布式向量来表示词，这样做的好处在于与one-hot编码相比，表示的单词向量往往只有几十或者几百个维度，极大的减少了计算和存储量。

词向量的表示方式依赖于单词的使用习惯，这使得具有相似使用习惯的单词具有相似的向量表示。可以使用余弦相似度在计算机中衡量词义相似度，余弦相似度越大，词义越相似。
- ‘机器学习’表示为向量[1， 2， 3]
- ‘深度学习’表示为向量[1， 3， 3]
- ‘可口可乐’表示为向量[6， 6， 6]

词嵌入是从文本语料中学习到的一种将单词表示为预定义大小的实值向量形式，学习过程一般与某个神经网络模型任务一同进行，如文档分类。

**词嵌入方法：**
- word2vec：word2vec是一种将词映射为连续向量表示的简单方法，它将词表示为向量，并且这些向量能够捕捉词之间的语义关系。
- GloVe：GloVe（Global Vectors for Word Representation）是一种全局矩阵分解方法，它将词表示为向量，并且这些向量能够捕捉词之间的全局统计关系。

**使用词嵌入：**
- 使用预训练的词嵌入，如GloVe或word2vec，将词嵌入加载到模型中，然后使用这些词嵌入作为模型的输入。
- 自己训练词嵌入，使用神经网络模型（如RNN或CNN）来学习词嵌入，然后将这些词嵌入作为模型的输入。

**文本词嵌入表示处理流程：**
文本在表示为独热编码和词嵌入之前，需要需要表示成`token`，每个较小的文本单元称为`token`，如单词、字符或子词。将文本分解成`token`的过程称为分词`tokenization`。
Python中常用的分词库有`nltk`、`spaCy`、`jieba`等。

将文本数据转换为`token`序列后，可以使用`one-hot`编码或`embedding`编码将`token`序列转换为数值向量。

## 导入库

In [1]:
import torch
import numpy as np
import string

## 分词

In [2]:
s = 'Life is not easy for any of us.We must work,and above all we must believe in ourselves.We must believe that each one of us is able to do some thing well.And that we must work until we succeed.'
s

'Life is not easy for any of us.We must work,and above all we must believe in ourselves.We must believe that each one of us is able to do some thing well.And that we must work until we succeed.'

In [3]:
# 常见标点符号
string.punctuation

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

In [4]:
# 去除标点符号，并将大写转为小写
for c in string.punctuation:
    s = s.replace(c, ' ').lower()
s

'life is not easy for any of us we must work and above all we must believe in ourselves we must believe that each one of us is able to do some thing well and that we must work until we succeed '

### 分词方式（一）
按字符分词

In [5]:
list(s)

['l',
 'i',
 'f',
 'e',
 ' ',
 'i',
 's',
 ' ',
 'n',
 'o',
 't',
 ' ',
 'e',
 'a',
 's',
 'y',
 ' ',
 'f',
 'o',
 'r',
 ' ',
 'a',
 'n',
 'y',
 ' ',
 'o',
 'f',
 ' ',
 'u',
 's',
 ' ',
 'w',
 'e',
 ' ',
 'm',
 'u',
 's',
 't',
 ' ',
 'w',
 'o',
 'r',
 'k',
 ' ',
 'a',
 'n',
 'd',
 ' ',
 'a',
 'b',
 'o',
 'v',
 'e',
 ' ',
 'a',
 'l',
 'l',
 ' ',
 'w',
 'e',
 ' ',
 'm',
 'u',
 's',
 't',
 ' ',
 'b',
 'e',
 'l',
 'i',
 'e',
 'v',
 'e',
 ' ',
 'i',
 'n',
 ' ',
 'o',
 'u',
 'r',
 's',
 'e',
 'l',
 'v',
 'e',
 's',
 ' ',
 'w',
 'e',
 ' ',
 'm',
 'u',
 's',
 't',
 ' ',
 'b',
 'e',
 'l',
 'i',
 'e',
 'v',
 'e',
 ' ',
 't',
 'h',
 'a',
 't',
 ' ',
 'e',
 'a',
 'c',
 'h',
 ' ',
 'o',
 'n',
 'e',
 ' ',
 'o',
 'f',
 ' ',
 'u',
 's',
 ' ',
 'i',
 's',
 ' ',
 'a',
 'b',
 'l',
 'e',
 ' ',
 't',
 'o',
 ' ',
 'd',
 'o',
 ' ',
 's',
 'o',
 'm',
 'e',
 ' ',
 't',
 'h',
 'i',
 'n',
 'g',
 ' ',
 'w',
 'e',
 'l',
 'l',
 ' ',
 'a',
 'n',
 'd',
 ' ',
 't',
 'h',
 'a',
 't',
 ' ',
 'w',
 'e',
 ' ',
 'm',
 'u'

### 分词方式（二）
按单词分词

In [6]:
s.split()

['life',
 'is',
 'not',
 'easy',
 'for',
 'any',
 'of',
 'us',
 'we',
 'must',
 'work',
 'and',
 'above',
 'all',
 'we',
 'must',
 'believe',
 'in',
 'ourselves',
 'we',
 'must',
 'believe',
 'that',
 'each',
 'one',
 'of',
 'us',
 'is',
 'able',
 'to',
 'do',
 'some',
 'thing',
 'well',
 'and',
 'that',
 'we',
 'must',
 'work',
 'until',
 'we',
 'succeed']

### 分词方式（三）: n-gram

## 向量化

### 独热编码（one-hot）

In [7]:
# 取出数组中所有唯一值
print(np.unique(s.split()))
# 创建词表（字典）
vocab = dict((word, index) for index, word in enumerate(np.unique(s.split())))      
vocab

['able' 'above' 'all' 'and' 'any' 'believe' 'do' 'each' 'easy' 'for' 'in'
 'is' 'life' 'must' 'not' 'of' 'one' 'ourselves' 'some' 'succeed' 'that'
 'thing' 'to' 'until' 'us' 'we' 'well' 'work']


{'able': 0,
 'above': 1,
 'all': 2,
 'and': 3,
 'any': 4,
 'believe': 5,
 'do': 6,
 'each': 7,
 'easy': 8,
 'for': 9,
 'in': 10,
 'is': 11,
 'life': 12,
 'must': 13,
 'not': 14,
 'of': 15,
 'one': 16,
 'ourselves': 17,
 'some': 18,
 'succeed': 19,
 'that': 20,
 'thing': 21,
 'to': 22,
 'until': 23,
 'us': 24,
 'we': 25,
 'well': 26,
 'work': 27}

In [8]:
# 将句子转换为词索引序列
s = [vocab.get(w) for w in s.split()]
print(len(s), len(vocab))
s

42 28


[12,
 11,
 14,
 8,
 9,
 4,
 15,
 24,
 25,
 13,
 27,
 3,
 1,
 2,
 25,
 13,
 5,
 10,
 17,
 25,
 13,
 5,
 20,
 7,
 16,
 15,
 24,
 11,
 0,
 22,
 6,
 18,
 21,
 26,
 3,
 20,
 25,
 13,
 27,
 23,
 25,
 19]

In [9]:
# 将词索引序列转换为独热编码
# 创建可以表示整个句子的全零矩阵
b = np.zeros((len(s), len(vocab)))
# 将矩阵中对应词索引位置设为1
for index, i in enumerate(s):
    b[index, i] = 1
# 查看独热编码
b[:5]

array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]])

### 词嵌入表示（embedding）

In [10]:
# 将张量映射到词嵌入表示
# num_embeddings:词汇表大小（要表示的词汇的数量）, embedding_dim:嵌入维度（用来表示的张量的维度）
embedding = torch.nn.Embedding(num_embeddings=len(vocab), embedding_dim=20)
print(len(s))
# 将每一个单词映射到长度为20的张量
s_embedding = embedding(torch.LongTensor(s))
s_embedding.shape

42


torch.Size([42, 20])

In [11]:
s_embedding

tensor([[-2.4793e-01, -1.5473e+00, -9.8172e-01,  8.6731e-01, -4.8686e-01,
          7.5673e-01,  9.1867e-01, -8.5564e-02, -6.7832e-01, -2.0619e-01,
         -5.2725e-01,  8.8756e-01,  1.9149e+00, -1.5005e+00,  4.2839e-01,
          7.4931e-01,  1.5116e-01,  7.1820e-01, -3.4409e-01, -1.5634e-01],
        [-3.8952e-01, -7.0831e-01,  1.2291e+00, -3.2346e-01, -2.9805e-01,
          1.4805e+00,  1.1426e+00, -5.4054e-02, -1.1407e+00, -2.1476e-01,
          3.3028e+00, -5.3879e-01,  1.2337e+00, -5.5514e-01, -6.2636e-01,
         -1.8089e-01, -1.8698e-01,  9.7433e-01, -8.6248e-01,  2.7589e+00],
        [ 2.4866e-02,  6.9017e-01, -2.4468e+00, -8.9292e-01,  2.5042e-01,
          1.5001e+00,  1.4992e+00, -1.5993e+00,  1.9021e+00, -1.0199e+00,
          1.2121e+00,  2.0651e+00,  1.4838e+00,  8.5363e-01, -9.1467e-01,
          6.7871e-01,  3.8542e-01, -3.5611e-01,  3.1663e-01,  2.2008e-01],
        [-3.3936e-01, -1.2131e-01, -1.3590e-01, -3.5523e-01,  5.4717e-01,
          1.5667e+00,  1.0037e+00, 

嵌入层还用于所有类型的分类输入，而不只是为自然语言进行词嵌入。

例如，如果要为超市里多个商品做推荐，则最好对商品名称做词嵌入，而不是将它们作为单热编码向量输送给网络。