references

books:<深度学习进阶-自然语言处理>
[CS224d: Deep Learning for Natural Language Processing](http://web.stanford.edu/class/cs224n/)

# 自然语言基本概念

众所周知，编程语言是一种机械的、缺乏活力的语言。换句话说，它是一种“硬语言”。而英语或日语等自然语言是“软语言”。

这里的“软”是指意思和形式会灵活变化，比如含义相同的文章可以有不同的表述，或者文章存在歧义，等等。

另外，自然语言的“软”还体现在，新的词语或新的含义会随着时代的发展不断出现。

***单词含义***

我们的语言是由文字构成的，而语言的含义是由单词构成的。

换句话说，单词是含义的最小单位。因此，为了让计算机理解自然语言，让它理解单词含义可以说是最重要的事情了

一般而言有以下几种方法：

* ·基于同义词词典的方法
* ·基于计数的方法
* word2vec·基于推理的方法


### 基于计数的方法

从介绍基于计数的方法开始，我们将使用语料库（corpus）。

简而言之，语料库就是大量的文本数据。

不过，语料库并不是胡乱收集数据，一般收集的都是用于自然语言处理研究和应用的文本数据。

例如 wiki，历史文本，新闻等都可以是语料库

python中可以通过字典dict建立自己的小语料库

---
### 单词的分布式表示


单词的分布式表示将单词表示为固定长度的向量。
这种向量的特征在于它是用密集向量表示的。
<font color='red'>密集向量的意思是，向量的各个元素（大多数）是由非0实数表示的。</font>
例如，三维分布式表示是[0.21,-0.45,0.83]。如何构建这样的单词的分布式表示是我们接下来的一个重要课题。

在自然语言处理的历史中，用向量表示单词的研究有很多。

如果仔细看一下这些研究，就会发现几乎所有的重要方法都基于一个简单的想法，

这个想法就是“某个单词的含义由它周围的单词形成”，称为分布式假设（distributional hypothesis）。许多用向量表示单词的近期研究也基于该假设。

基于这一概念，可以通过共现矩阵来表示句子中词的向量。

<font color='red'>注意，共现矩阵中词的表示是其前后语句出现相对位置决定</font>


In [None]:
def process

# 文本向量化-基于计数的方法-
### 基本的one-hot向量化
1. 首先构建词典：词典来源可以来源于现有文本中抽取，得到本地词典。
> 在词典构建之前首先必须进行分词，英文直接使用str.split()即可，但中文分词需要使用其他工具
2. 在本地词典基础上，通过one-hot可以构建最基本的文本向量矩阵，在词典中出现的为1，没有出现的为0

---
* 实现英文的文本one-hot 向量化构建
* 实现基于sklearn的one-hot 向量化构建
* 实现中文one-hot 向量化构建

In [5]:
!pip3 install jieba



In [11]:
import numpy as np
import pandas as pd
import jieba 
 
 
def token2onehot(words)->pd.DataFrame:
    words_set=sorted(set(words))
    print("分词后list转化为集合，去重，并进行排序处理 \n",words_set)
    diction={}
    for index,value in enumerate(words_set):
       diction[index]=value
    print("\n 转换后的本地词典：\n",diction)

    column=len(words)
    print(words)
    row=len(diction)
    onehotMatrix=np.zeros((row,column),dtype=float)
    print("one-hot矩阵大小：",onehotMatrix.shape)
    for i in range(len(words)):
        for j in range(len(diction)):
          if words[i]==diction[j]:
              
             onehotMatrix[j,i]=1
    df=pd.DataFrame(onehotMatrix)
    df.columns=words
    return(df)
if __name__=="__main__":
    print("英文one-hot，词典中单词来源于原文\n 其中column代表原文，row代表对应的dict index \n")
    sents="Life is like music. It must be composed by ear, feeling and instinct, not by rule."
    words=sents.split()
    df=token2onehot(words)
    #print(df)
    print("中文one-hot，词典中单词来源于原文")
    sents="中国国家统计局15日公布的70个大中城市房价数据显示\n 其中column代表原文，row代表对应的dict index \n"
    words=list(jieba.cut(sents))
    df2=token2onehot(words)
    print(df2)

英文one-hot，词典中单词来源于原文
 其中column代表原文，row代表对应的dict index 

分词后list转化为集合，去重，并进行排序处理 
 ['It', 'Life', 'and', 'be', 'by', 'composed', 'ear,', 'feeling', 'instinct,', 'is', 'like', 'music.', 'must', 'not', 'rule.']

 转换后的本地词典：
 {0: 'It', 1: 'Life', 2: 'and', 3: 'be', 4: 'by', 5: 'composed', 6: 'ear,', 7: 'feeling', 8: 'instinct,', 9: 'is', 10: 'like', 11: 'music.', 12: 'must', 13: 'not', 14: 'rule.'}
['Life', 'is', 'like', 'music.', 'It', 'must', 'be', 'composed', 'by', 'ear,', 'feeling', 'and', 'instinct,', 'not', 'by', 'rule.']
one-hot矩阵大小： (15, 16)
中文one-hot，词典中单词来源于原文
分词后list转化为集合，去重，并进行排序处理 
 ['\n', ' ', '15', '70', 'column', 'dict', 'index', 'row', '个', '中国', '代表', '公布', '其中', '原文', '国家统计局', '大中城市', '对应', '房价', '数据', '日', '显示', '的', '，']

 转换后的本地词典：
 {0: '\n', 1: ' ', 2: '15', 3: '70', 4: 'column', 5: 'dict', 6: 'index', 7: 'row', 8: '个', 9: '中国', 10: '代表', 11: '公布', 12: '其中', 13: '原文', 14: '国家统计局', 15: '大中城市', 16: '对应', 17: '房价', 18: '数据', 19: '日', 20: '显示', 21: '的', 22: '，'}
['中国', '国

In [12]:
# 自然语言处理书中方法
import numpy as np 
sentence="Life is like music. It must be composed by ear, feeling and instinct, not by rule."
token=sentence.split()
vocad=sorted(set(token))# 对英文文本进行排序，数字最先，大写在前，小写在后
 
','.join(vocad)
print(token)
print(vocad)
num_tokens=len(token)
vocad_size=len(vocad)
#print(num_tokens)
#print(vocad_size)
onehot_vec=np.zeros((num_tokens,vocad_size),int)
print(onehot_vec)
for i, word in enumerate(token):
        onehot_vec[i,vocad.index(word)]=1
        
print(onehot_vec)
#
from sklearn.feature_extraction.text import CountVectorizer
#  CountVectorizer函数，属于常见的特征数值计算类，是一个文本特征提取方法。对于每一个训练文本，它只考虑每种词汇在该训练文本中出现的频率，将文本中的词语转换为词频矩阵。CountVectorizer同样适用于中文。
vectorizer = CountVectorizer(binary=True)

['Life', 'is', 'like', 'music.', 'It', 'must', 'be', 'composed', 'by', 'ear,', 'feeling', 'and', 'instinct,', 'not', 'by', 'rule.']
['It', 'Life', 'and', 'be', 'by', 'composed', 'ear,', 'feeling', 'instinct,', 'is', 'like', 'music.', 'must', 'not', 'rule.']
[[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]]
[[0 1 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 1 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 1 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 1 0 0 0]
 [1 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 1 0 0]
 [0 0 0 1 0 0 0

In [13]:
# 自然语言处理书中方法
import numpy as np 
sentence="Life is like music. It must be composed by ear, feeling and instinct, not by rule."
token=sentence.split()
vocad=sorted(set(token))# 对英文文本进行排序，数字最先，大写在前，小写在后
 
','.join(vocad)
print(token)
print(vocad)
num_tokens=len(token)
vocad_size=len(vocad)
#print(num_tokens)
#print(vocad_size)
onehot_vec=np.zeros((num_tokens,vocad_size),int)
print(onehot_vec)
for i, word in enumerate(token):
        onehot_vec[i,vocad.index(word)]=1
        
print(onehot_vec)
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer(binary=True)

['Life', 'is', 'like', 'music.', 'It', 'must', 'be', 'composed', 'by', 'ear,', 'feeling', 'and', 'instinct,', 'not', 'by', 'rule.']
['It', 'Life', 'and', 'be', 'by', 'composed', 'ear,', 'feeling', 'instinct,', 'is', 'like', 'music.', 'must', 'not', 'rule.']
[[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]]
[[0 1 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 1 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 1 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 1 0 0 0]
 [1 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 1 0 0]
 [0 0 0 1 0 0 0

In [14]:
import pandas as pd 
df=pd.DataFrame(onehot_vec,columns=vocad)
print(df)

    It  Life  and  be  by  composed  ear,  feeling  instinct,  is  like  \
0    0     1    0   0   0         0     0        0          0   0     0   
1    0     0    0   0   0         0     0        0          0   1     0   
2    0     0    0   0   0         0     0        0          0   0     1   
3    0     0    0   0   0         0     0        0          0   0     0   
4    1     0    0   0   0         0     0        0          0   0     0   
5    0     0    0   0   0         0     0        0          0   0     0   
6    0     0    0   1   0         0     0        0          0   0     0   
7    0     0    0   0   0         1     0        0          0   0     0   
8    0     0    0   0   1         0     0        0          0   0     0   
9    0     0    0   0   0         0     1        0          0   0     0   
10   0     0    0   0   0         0     0        1          0   0     0   
11   0     0    1   0   0         0     0        0          0   0     0   
12   0     0    0   0   0

In [15]:
sentence_bow={}
for token in sentence.split():
    sentence_bow[token]=1
print(type(sentence_bow))
sorted(sentence_bow.items())

<class 'dict'>


[('It', 1),
 ('Life', 1),
 ('and', 1),
 ('be', 1),
 ('by', 1),
 ('composed', 1),
 ('ear,', 1),
 ('feeling', 1),
 ('instinct,', 1),
 ('is', 1),
 ('like', 1),
 ('music.', 1),
 ('must', 1),
 ('not', 1),
 ('rule.', 1)]

In [16]:
s=pd.Series(sentence_bow)
df2=pd.DataFrame(s,columns=["sent"])
df2=df2.T
print(df2)

      Life  is  like  music.  It  must  be  composed  by  ear,  feeling  and  \
sent     1   1     1       1   1     1   1         1   1     1        1    1   

      instinct,  not  rule.  
sent          1    1      1  


In [17]:
sents="To be both a speaker of words and a doer of deeds.\n"
sents+="Only they who fulfill their duties in everyday matters will fulfill them on great occasions.\n"
sents+="The shortest way to do many things is to only one thing at a time. \n"
sents+="Life is like music. It must be composed by ear, feeling and instinct, not by rule.\n"
sents+="Life is a great big canvas, and you should throw all the paint on it you can."

### n-gram
one-hot 方法虽然能够完全数值化非结构化的文本，任何语义信息没有丢失是其优点。但是其矩阵太大，不易处理。实际上可以将其进行降维，矩阵中数值代表不是是否出现，而是出现的次数（频次）。
> 对比
 
n-gram 是一个最多包含n个元素的序列，这些元素从由他们组成的序列（通常是字符串）中提取而成。一般而言，n-gram的“元素”可以是字符、音节、词，甚至像“A”、“T”、“G”、“C”等表示DNA的符号。
实际上，单个汉字（或字符）也可以形成n-gram，但一般的单位是词，例如。

“今天天气真好呀。”
对用的2-gram为
今天 天天 天气 

如果1-gram实际就是对单个汉字的分析
#### N-gram在自然语言处理（NLP）中的应用

N-gram是自然语言处理（NLP）中的一个重要概念，指的是文本中相邻的N个项目（可以是字母、音节、词或短语）的序列。N-gram模型通过分析这些项目的出现频率及其相邻项目的关系，来捕捉和预测语言中的模式。这种方法在很多NLP任务中都非常有用，如文本分类、语言模型、拼写检查、语音识别等。

###### N-gram的类型

- **Unigrams（1-gram）**：单个项目的序列。例如，在处理词级别的N-gram时，unigram就是单个词。
- **Bigrams（2-gram）**：两个连续项目的序列。在词级别上，bigram例子可能是“自然 语言”。
- **Trigrams（3-gram）**：三个连续项目的序列。在词级别上，trigram例子可能是“自然 语言 处理”。

以此类推，可以有更高阶的N-grams。

###### N-gram的应用

- **语言模型**：N-gram模型被广泛用于构建语言模型，这些模型可以预测文本中下一个词或字符的概率分布。这对于自动完成、拼写纠正和语音识别等任务非常重要。
- **文本分类**：N-gram可以用作特征，以训练分类器进行文本分类，如情感分析或主题识别。
- **信息检索**：在信息检索中，N-gram可以帮助改进搜索算法的精确度和召回率，特别是在处理拼写错误和近义词时。

######N-gram的局限性

虽然N-gram模型在捕捉语言的局部模式方面非常有效，但它们也有一些局限性：

- **数据稀疏性**：随着N的增加，N-gram的组合数量呈指数级增长，这可能导致数据稀疏问题，即许多N-gram在训练集中很少或根本没有出现。
- **计算资源**：存储和处理大量N-gram模型需要大量的内存和计算能力。
- **上下文依赖**：尽管高阶N-gram可以捕获更长的依赖关系，但它们仍然无法完全理解更长的上下文或句子结构。

尽管存在这些局限性，N-gram模型仍然是许多NLP任务中一个非常有用和流行的工具。随着深度学习的发展，一些任务开始采用更复杂的模型（如循环神经网络和Transformer），这些模型能够捕捉更长的依赖关系和更丰富的语言特性。


In [19]:
!pip install nltk

Collecting nltk
  Downloading nltk-3.8.1-py3-none-any.whl (1.5 MB)
     ---------------------------------------- 0.0/1.5 MB ? eta -:--:--
     ---------------------------------------- 0.0/1.5 MB ? eta -:--:--
     ---------------------------------------- 0.0/1.5 MB ? eta -:--:--
     ---------------------------------------- 0.0/1.5 MB ? eta -:--:--
     ---------------------------------------- 0.0/1.5 MB ? eta -:--:--
     ---------------------------------------- 0.0/1.5 MB ? eta -:--:--
      --------------------------------------- 0.0/1.5 MB 93.5 kB/s eta 0:00:16
      --------------------------------------- 0.0/1.5 MB 93.5 kB/s eta 0:00:16
     - -------------------------------------- 0.0/1.5 MB 93.7 kB/s eta 0:00:16
     - -------------------------------------- 0.0/1.5 MB 93.7 kB/s eta 0:00:16
     - -------------------------------------- 0.0/1.5 MB 93.7 kB/s eta 0:00:16
     - -------------------------------------- 0.0/1.5 MB 93.7 kB/s eta 0:00:16
     -- -------------------------

In [20]:
from nltk.util import ngrams
sents="To be both a speaker of words and a doer of deeds."
token=sents.split()
gramList=list(ngrams(token,2))
print("基于ntlk实现2-gram，并转换为list")
list([" ".join(x) for x in gramList ])
sents="To be both a speaker of words and a doer of deeds."
token=sents.split()
gramList=list(ngrams(token,2))
print("基于ntlk实现2-gram，并转换为list")
list([" ".join(x) for x in gramList ])

基于ntlk实现2-gram，并转换为list
基于ntlk实现2-gram，并转换为list


['To be',
 'be both',
 'both a',
 'a speaker',
 'speaker of',
 'of words',
 'words and',
 'and a',
 'a doer',
 'doer of',
 'of deeds.']

在词袋基础上，进一步可以对文本进行分析，为了简化one-hot以及提供更多信息，在向量矩阵中，不保存词是否在词典中出现，而是记录其在文本中的出现频率，或者tf-idf等信息。

<font color='red'>概念</font>
* 词袋-词出现的频率或词频向量
* n-gram袋: 词对（2-gram)、三元对（3-gram）等的计数

N-gram和词袋（Bag of Words，BoW）是两种不同的自然语言处理（NLP）概念，它们分别代表不同的文本表示方法。尽管它们在某些应用中可以相互结合使用，但它们本质上是不同的。

> N-gramN

* 定义：N-gram是文本中相邻的N个项目（例如字母、词或短语）的序列。N-gram模型通过考虑词的相邻序列来捕捉文本的局部上下文信息，这与N的大小密切相关。
* 用途：N-gram广泛用于语言模型、文本分类、拼写检查等，通过分析项目的序列来预测文本中的模式或下一个项目。
> 词袋（BoW）
* 定义：词袋模型是一种简单的文本表示方法，它将文本转换为词汇表中各词的出现次数的向量，而不考虑词的顺序或语法结构。
* 用途：词袋模型常用于文本分类、情感分析等任务，主要关注词的出现频率，而忽略了词的顺序。
> 关系与区别
* 关系：在某些情况下，N-gram可以被视为词袋模型的一种扩展或变种。
例如，使用Bigrams（2-grams）或Trigrams（3-grams）作为特征的词袋模型可以捕捉到一定程度的序列信息，
这比单纯使用Unigrams（1-gram ，即标准的词袋模型）捕捉到更多的上下文信息。
* 区别：
 * 顺序信息：N-gram模型通过考虑词序来保留文本中的局部上下文信息，而标准的词袋模型则完全忽略词序。
 * 特征空间：使用N-gram的词袋模型会产生比单纯使用Unigrams更大的特征空间，因为它包含了所有可能的相邻N个项目的组合。
 * 应用场景：虽然两者都可用于文本分类和其他NLP任务，但N-gram模型在需要考虑局部上下文或序列信息的场合更为合适。
总结来说，N-gram和词袋是两种不同的概念，但它们可以结合使用来提供更丰富的文本表示，尤其是在需要捕捉词序信息的场景中。

collections.Counter对象是一个无序集合（collection），也称为袋（bag）或者多重集合（multiset）。以下通过Counter计算词频，形成词袋。

In [4]:
import jieba

 
from collections import Counter
 
#print(bag_of_words)
 
def countWord(sents)->dict:
    """计算词频并返回相应数据
    
    Args:
        sents:输入原始汉语句子。
    
    Returns:
        返回dict形式的词袋，形如{词：词频}
    """
    tokens=jieba.cut(sents)
    bag_of_words=Counter(tokens)#
    tf={}
    len_word=len(bag_of_words)
    for word in bag_of_words:
     
        count=bag_of_words[word]
        tf_w=count/len_word
        tf[word]=tf_w
    return(tf)
if __name__=="__main__":
    sents="""
游侠客是一家提供网络出游和线路服务的公司，总部在浙江杭州。此次安排龙漕沟行程的是成都分公司。8月15日，部分遇险团友对游侠客公司提出正式追责诉求。
此前，据澎湃新闻报道，彭州山洪亲历者张先生称，其报名游侠客旅行社跟团到龙漕沟耍水，质疑旅行社设计路线时未考虑风险。该旅行社客服表示，会加强产品安全评估。"""
    tf=countWord(sents)
    print(tf)

{'\n': 0.029411764705882353, '游': 0.029411764705882353, '侠客': 0.04411764705882353, '是': 0.029411764705882353, '一家': 0.014705882352941176, '提供': 0.014705882352941176, '网络': 0.014705882352941176, '出游': 0.014705882352941176, '和': 0.014705882352941176, '线路': 0.014705882352941176, '服务': 0.014705882352941176, '的': 0.029411764705882353, '公司': 0.029411764705882353, '，': 0.10294117647058823, '总部': 0.014705882352941176, '在': 0.014705882352941176, '浙江': 0.014705882352941176, '杭州': 0.014705882352941176, '。': 0.07352941176470588, '此次': 0.014705882352941176, '安排': 0.014705882352941176, '龙': 0.029411764705882353, '漕沟': 0.029411764705882353, '行程': 0.014705882352941176, '成都': 0.014705882352941176, '分公司': 0.014705882352941176, '8': 0.014705882352941176, '月': 0.014705882352941176, '15': 0.014705882352941176, '日': 0.014705882352941176, '部分': 0.014705882352941176, '遇险': 0.014705882352941176, '团友': 0.014705882352941176, '对游': 0.014705882352941176, '提出': 0.014705882352941176, '正式': 0.014705882352941176, '追责'

实现文档的向量化

>单独对一篇文档对应一个向量意义不大，需要对应多个文档，并为每篇文档创建其对应的向量。
这需要实现每篇文档对应向量的值相对于其他向量有可比性，或者说一致性。需要进行以下步骤。
1. 创建词库（lexicon），构成一个词库向量
2. 计算多个文档中，每个文档的词袋，并于词库对应，构成每个文档的词袋向量。
3. 注意文档向量与词库向量必须对应，包括长度一致；词位置一致。可以使用
``` python
np.zero_like(lexicon)
```
来构建与词库相同的0向量

**使用方式构建的词向量矩阵，每一行对应一个文本，其顺序都为词典顺序而非原文顺序，或者说这种方式丢失了原文的词序语义信息**

---
<font color='red'>词频（TF）归一化</font>

在构建多个文档对应向量构成矩阵时候，必须进行一致性处理，其涉及两个方面：

1. 词频的归一化：之前的词频为$tf= \frac{词在对应文档出现次数}{对应文档长度}$，所对应的是一个文档。但对于多个文档而言，为使得标准统一归一化词频为$tf_{归一化}=\frac{词在对应出现次数}{词典长度}$。
2. 向量长度与位置统一：


In [22]:
import numpy as np 
import jieba 
from collections import Counter

 
def createLexicon(doc_vec:np.array)->list:
    """ 创建词典
    
    Args:
        doc_vec:输入矩阵形式的原始句子集。
        
    Returns:
        去重并排序后得词典，list形式
    """
    lexicon=[]
    for sent in doc_vect:
        doc_token=list(jieba.cut(sent))
        lexicon.append(doc_token)
    lex=sum(lexicon,[])
    lex_set=sorted(set(lex))
    return lex_set
def countWord(sents,lexicon):
    """计算词频并返回相应数据
    
    Args:
        sents:输入原始汉语句子。
    
    Returns:
        返回dict形式的词袋，形如{词：词频}
    """
    tokens=jieba.cut(sents)
    bag_of_words=Counter(tokens)
    len_lexicon=len(lexicon)#字典中单词数目
    tf={}
    for word in bag_of_words:
     
        count=bag_of_words[word]
        tf_w=count/len_lexicon
        tf[word]=tf_w
    return tf

if __name__=="__main__":
    doc_list=[]
    doc_list.append("买那么多，妈妈住一套，爸爸住一套，子女各住一套，这下子50平都不挤了。")
    doc_list.append("我有一个大胆的想法，公务员的工资拿房子顶账，怎么样？")
    doc_list.append("把视频发到台湾，感化他们早日回归祖国的怀抱！")
    doc_list.append("然后开始贪钱买房，过一段再给抓起来")
    doc_list.append("娘妈的，房子又不能吃，你可以多贪几套，贫农买不起。")
    doc_vect=np.array(doc_list)
    lexicon=createLexicon(doc_vect)
    print("字典单词数（维度数）：",len(lexicon))
    print("字典内容：",lexicon)
    #import copy 
    #vec=copy.copy(lexicon)
    #print(vec)
 
    sent_matrix=np.zeros((len(doc_list),len(lexicon)))
    print(f"构建一个矩阵，保存词袋向量，行为文本数量，列为字典单词数目，实现文本的统一：\n,其中列的数目对应字典唯一的词数目{sent_matrix.shape[1]}",sent_matrix.shape)
    j=0
    for sent in doc_list:
         
        count=countWord(sent,lexicon)
        #print(count)
        for key,value in count.items():#通过查找在字典中的index，为对应行中值赋值。
            index=lexicon.index(key)
            #print("词:",key)
            #print("对应字典index",index)
            #sent_matrix[j,index]=value
            sent_matrix[j,index]=value
        print(sent_matrix)
        j=j+1# 换行
#print(sent_matrix)
    #print(count)
    

字典单词数（维度数）： 60
字典内容： ['50', '。', '一个', '一套', '一段', '不', '不能', '买', '买不起', '买房', '了', '他们', '住', '你', '公务员', '再', '几套', '又', '发到', '可以', '台湾', '吃', '各住', '回归祖国', '多', '大胆', '妈妈', '娘妈', '子女', '工资', '平都', '开始', '怀抱', '怎么样', '想法', '感化', '我', '房子', '把', '抓', '拿', '挤', '早日', '有', '然后', '爸爸', '的', '给', '视频', '贪', '贪钱', '贫农', '起来', '过', '这下子', '那么', '顶账', '！', '，', '？']
构建一个矩阵，保存词袋向量，行为文本数量，列为字典单词数目，实现文本的统一：
,其中列的数目对应字典唯一的词数目5 (5, 60)
[[0.01666667 0.01666667 0.         0.05       0.         0.01666667
  0.         0.01666667 0.         0.         0.01666667 0.
  0.03333333 0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.01666667 0.
  0.01666667 0.         0.01666667 0.         0.01666667 0.
  0.01666667 0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.01666667
  0.         0.         0.         0.01666667 0.         0.
  0.         0.         0.         0.         0.         0.
  0.01666667 

In [23]:
#基于书中方法
from collections import OrderedDict
zero_vec=OrderedDict((token,0) for token in lexicon) 
print(zero_vec)
import copy 
doc_vec=[]
doc_list=[]
doc_list.append("买那么多，妈妈住一套，爸爸住一套，子女各住一套，这下子50平都不挤了。")
doc_list.append("我有一个大胆的想法，公务员的工资拿房子顶账，怎么样？")
doc_list.append("把视频发到台湾，感化他们早日回归祖国的怀抱！")
doc_list.append("然后开始贪钱买房，过一段再给抓起来")
doc_list.append("娘妈的，房子又不能吃，你可以多贪几套，贫农买不起。")
for doc in doc_list:
    vec=copy.copy(zero_vec)
    tokens=list(jieba.cut(doc))
    token_count=Counter(tokens)
    #print(token_count) 
    for key,value in token_count.items():

        vec[key]=value/len(lexicon)
    doc_vec.append(vec)
    print(doc_vec)

OrderedDict([('50', 0), ('。', 0), ('一个', 0), ('一套', 0), ('一段', 0), ('不', 0), ('不能', 0), ('买', 0), ('买不起', 0), ('买房', 0), ('了', 0), ('他们', 0), ('住', 0), ('你', 0), ('公务员', 0), ('再', 0), ('几套', 0), ('又', 0), ('发到', 0), ('可以', 0), ('台湾', 0), ('吃', 0), ('各住', 0), ('回归祖国', 0), ('多', 0), ('大胆', 0), ('妈妈', 0), ('娘妈', 0), ('子女', 0), ('工资', 0), ('平都', 0), ('开始', 0), ('怀抱', 0), ('怎么样', 0), ('想法', 0), ('感化', 0), ('我', 0), ('房子', 0), ('把', 0), ('抓', 0), ('拿', 0), ('挤', 0), ('早日', 0), ('有', 0), ('然后', 0), ('爸爸', 0), ('的', 0), ('给', 0), ('视频', 0), ('贪', 0), ('贪钱', 0), ('贫农', 0), ('起来', 0), ('过', 0), ('这下子', 0), ('那么', 0), ('顶账', 0), ('！', 0), ('，', 0), ('？', 0)])
[OrderedDict([('50', 0.016666666666666666), ('。', 0.016666666666666666), ('一个', 0), ('一套', 0.05), ('一段', 0), ('不', 0.016666666666666666), ('不能', 0), ('买', 0.016666666666666666), ('买不起', 0), ('买房', 0), ('了', 0.016666666666666666), ('他们', 0), ('住', 0.03333333333333333), ('你', 0), ('公务员', 0), ('再', 0), ('几套', 0), ('又', 0), ('发到', 0), ('可以', 0),

## 文本相似度计算
在对文本进行词袋向量化的基础上，基于向量dot可以计算不同向量（文本）的$\cos(\theta)$从而得到向量的接近程度。
$$\cos(\theta)=\frac{\vec{v1}dot\vec{v2}}{|vec1||vec2|}$$

<font color='red'>文本向量空间的维度</font>

对于自然语言文档的空间向量，向量空间的维度是整个语料库（字典）中出现的不同词的数量，词库中有K个词就称为$K$维空间。

在学术论文中也称为$|V|$，例如上面的代码中词库lexicon有50个词，那么其为50维空间。

### 齐普夫定律
>　齐普夫定律是美国语言学家G.K.齐普夫（George Kingsley Zipf）于本世纪40年代提出的词频分布定律。它可以表述为：如果把一篇较长文章中每个词出现的频次统计起来，按照高频词在前、低频词在后的递减顺序排列，并用自然数个这些词编上的等级序号，即频次最高的词等级为1，频次次之的等级为2，......，频次最小的词等级为D，。若用f表示频次，r 表示序号，则有fr=C（C为常数）。人们称该式为齐普夫定律。

>齐普夫定律是描述一系列实际现象的特点非常到位的经验定律之一。它认为，如果我们按照大小或者流行程度给某个大集合中的各项进行排序，集合中第二项的比重大约是第一项的一半，而第三项的比重大约是第一项的三分之一，以此类推。换句话来说，一般来讲，排在第k位的项目其比重为第一项的1/k。

>齐普夫定律还从定量角度描述了目前流行的一个主题: 长尾巴定律（The Long Tail）。以一个集合中按流行程度排名的物品（如亚马逊网站上销售的图书）为例。表示流行程度的图表会向下倾斜，位于左上角的是几十本最流行的图书。该图会向右下角逐渐下降，那条长尾巴会列出每年销量只有一两本的几十万种图书。换成英文即齐普夫定律最初应用的领域，这条长尾巴就是你很少会遇到的几十万个单词，譬如floriferous或者refulgent。

>把流行程度作为大致衡量价值的标准，齐普夫定律随后就会得出每一个物品的价值。也就是说，假设有100万个物品，那么最流行的100个物品将贡献总价值的三分之一，其次的10000个物品将贡献另外的三分之一; 剩余的98.99万个将贡献剩下的三分之一。有n个物品的集合其价值与log(n)成正比。

<img src="https://p1.ssl.qhimg.com/t01caf1e134491a0504.png"/>

### 使用TF-IDF替代TF构建文本向量
之前词向量的构建单纯使用TF（Term Frequency）词频作为向量中值，但这种方法无法体现文档的特征。故一般结合“逆文档频率"（Inverse Document Frequency，缩写为IDF），使用
$$tf \times idf$$
代表每个词的特征，并载入词典对应向量位置，构建文本向量，其步骤如下：
1. 对所有文档进行切词
2. 构建词典（lexicon），包括去重、排序
3. 对每个文档进行词典对应，即统一文档对应向量长度都为词典的长度，每个词对应一个槽位（slot），对应词库中位置。
4. 槽位中的值为该词的TF-IDF值，完成文本向量构建，返回一个矩阵，矩阵大小为[len(文本数),len(lexicon)]

---

* 定义idf方法
* 计算文档tf-idf并构建文本向量
* 计算cos文本相似度
* 使用sklearn实现tf-idf向量构建

In [24]:
#z'j
import numpy as np 
import numpy as np 
import jieba 
from collections import Counter
import torch.nn.functional as F
 
def createLexicon(doc_vec:np.array)->list:
    """构建字典
    
    Parameter:
       doc_vec:输入一个包含多个文本的数组。
    
    Returns:
       返回一个list包含去重，排序后的词典。
    """
    lexicon=[]
    for sent in doc_vect:
        doc_token=list(jieba.cut(sent))
        lexicon.append(doc_token)
    lex=sum(lexicon,[])
    lex_set=sorted(set(lex))
    return lex_set
def tf(sents,lexicon):
    """计算词频并返回相应数据
    
    Parameter:
        sents:输入原始汉语句子。
    
    Returns:
        返回dict形式的词袋，形如{词：词频}
    """
    tokens=jieba.cut(sents)
    bag_of_words=Counter(tokens)# Counter 返回一个词出现次数的集合
    len_lexicon=len(lexicon)#字典中单词数目
    tf={}
    for word in bag_of_words:
     
        count=bag_of_words[word]#返回词出现次数
        tf_w=count/len_lexicon #于词典中词数目相除
        tf[word]=tf_w#得到该词对应的tf
    return tf

def cos_sim(vec1:np.array,vec2:np.array)->float:
    """计算两个向量的cos夹角值"""
    n1=np.linalg.norm(vec1)
    n2=np.linalg.norm(vec2)
    v1_2=vec1@vec2
    cos=v1_2/(n1*n2)
    return cos
def tf_idf(sents:np.array,lexicon:list)->np.array:
    """计算tf_idf并返回相应数据
    
    Parameter:
        sents:输入包含所有文本。
        lexicon:词典
    
    Returns:
        返回矩阵，包含向量化后的文本，对应槽位上为tf-idf值
    """
    sent_matrix=np.zeros((len(sents),len(lexicon)))#构建一个矩阵，保存词袋向量，行为文本数量，列为字典单词数目，实现文本的统一
    j=0#矩阵起始行数
    for sent in sents:   
        tokens=jieba.cut(sent)
        bag_of_words=Counter(tokens)# Counter 返回一个词出现次数的集合
        len_lexicon=len(lexicon)#字典中单词数目
        tf={}
        for word,value in bag_of_words.items():
             
            word_contain=0
            for _doc in sents:
                if word in _doc:
                    word_contain+=1
            count=bag_of_words[word]#返回词出现次数
            tf_w=count/len_lexicon #于词典中词数目相除
           
            idf=np.log(len(sents)/(word_contain+1))
            
            tf_idf=tf_w*idf
            tf[word]=tf_idf#得到该词对应的tf_idf
            index=lexicon.index(word)
            sent_matrix[j,index]=tf_idf
        j=j+1# 换行
    return sent_matrix
 
    
if __name__=="__main__":
    doc_list=[]
    doc_list.append("买那么多，妈妈住一套，爸爸住一套，子女各住一套，这下子50平都不挤了。")
    doc_list.append("我有一个大胆的想法，公务员的工资拿房子顶账，怎么样？")
    doc_list.append("把视频发到台湾，感化他们早日回归祖国的怀抱！")
    doc_list.append("然后开始贪钱买房，过一段再给抓起来")
    doc_list.append("娘妈的，房子又不能吃，你可以多贪几套，贫农买不起。")
    doc_list.append("规定期限内没有完成商品房购置任务的干部职工，将交流到其他单位工作。")
    doc_vect=np.array(doc_list)
    lexicon=createLexicon(doc_vect)
    print("字典单词数（维度数）：",len(lexicon))
    print("字典内容：",lexicon)
    sent_matrix=tf_idf(doc_vect,lexicon)
    #print(sent_matrix)
    test1=sent_matrix[0,:]
    test2=sent_matrix[2,:]
    rs=cos_sim(test1,test2)
    print("文本向量相关度：",rs)
    

字典单词数（维度数）： 74
字典内容： ['50', '。', '一个', '一套', '一段', '不', '不能', '买', '买不起', '买房', '了', '交流', '他们', '任务', '住', '你', '公务员', '其他', '再', '几套', '到', '单位', '又', '发到', '可以', '台湾', '吃', '各住', '商品房', '回归祖国', '多', '大胆', '妈妈', '娘妈', '子女', '完成', '将', '工作', '工资', '干部职工', '平都', '开始', '怀抱', '怎么样', '想法', '感化', '我', '房子', '把', '抓', '拿', '挤', '早日', '有', '期限内', '没有', '然后', '爸爸', '的', '给', '规定', '视频', '贪', '贪钱', '贫农', '购置', '起来', '过', '这下子', '那么', '顶账', '！', '，', '？']
文本向量相关度： 0.0050314144312208885



sklearn 可以构建tf-idf文本向量，但对于中文需要进行一些处理

https://blog.csdn.net/word_mhg/article/details/90317975

In [4]:
!pip install jieba

Looking in indexes: https://pypi.tuna.tsinghua.edu.cn/simple
Collecting jieba
  Using cached jieba-0.42.1-py3-none-any.whl
Installing collected packages: jieba
Successfully installed jieba-0.42.1


In [25]:
from sklearn.feature_extraction.text import TfidfVectorizer
doc_list=[]
doc_list.append("买那么多，妈妈住一套，爸爸住一套，子女各住一套，这下子50平都不挤了。")
doc_list.append("我有一个大胆的想法，公务员的工资拿房子顶账，怎么样？")
doc_list.append("把视频发到台湾，感化他们早日回归祖国的怀抱！")
doc_list.append("然后开始贪钱买房，过一段再给抓起来")
doc_list.append("娘妈的，房子又不能吃，你可以多贪几套，贫农买不起。")
doc_list.append("规定期限内没有完成商品房购置任务的干部职工，将交流到其他单位工作。")
doc_list
doc_cut_list=[list(jieba.cut(sent)) for sent in doc_list]

doc=[" ".join(s) for s in doc_cut_list]

vec=TfidfVectorizer(token_pattern=r"(?u)\b\w+\b") #  token_pattern这个参数使用正则表达式来分词，其默认参数为r"(?u)\b\w\w+\b"，其中的两个\w决定了其匹配长度至少为2的单词，所以这边减到1个。对这个参数进行更多修改，可以满足其他要求，比如这里依然没有得到标点符号， 

model=vec.fit(doc)
lexcion=model.vocabulary_
print("通过slearn建立的词典：",lexcion)
print("词典长度",len(lexcion))
sparse_result = model.transform(doc)
print(sparse_result)
sklearn_matrix=sparse_result.todense().round(2)
print(sklearn_matrix)

通过slearn建立的词典： {'买': 6, '那么': 68, '多': 29, '妈妈': 31, '住': 13, '一套': 2, '爸爸': 56, '子女': 33, '各住': 26, '这下子': 67, '50': 0, '平都': 39, '不': 4, '挤': 50, '了': 9, '我': 45, '有': 52, '一个': 1, '大胆': 30, '的': 57, '想法': 43, '公务员': 15, '工资': 37, '拿': 49, '房子': 46, '顶账': 69, '怎么样': 42, '把': 47, '视频': 60, '发到': 22, '台湾': 24, '感化': 44, '他们': 11, '早日': 51, '回归祖国': 28, '怀抱': 41, '然后': 55, '开始': 40, '贪钱': 62, '买房': 8, '过': 66, '一段': 3, '再': 17, '给': 58, '抓': 48, '起来': 65, '娘妈': 32, '又': 21, '不能': 5, '吃': 25, '你': 14, '可以': 23, '贪': 61, '几套': 18, '贫农': 63, '买不起': 7, '规定': 59, '期限内': 53, '没有': 54, '完成': 34, '商品房': 27, '购置': 64, '任务': 12, '干部职工': 38, '将': 35, '交流': 10, '到': 19, '其他': 16, '单位': 20, '工作': 36}
词典长度 70
  (0, 68)	0.1973633763461439
  (0, 67)	0.1973633763461439
  (0, 56)	0.1973633763461439
  (0, 50)	0.1973633763461439
  (0, 39)	0.1973633763461439
  (0, 33)	0.1973633763461439
  (0, 31)	0.1973633763461439
  (0, 29)	0.16184079192607506
  (0, 26)	0.1973633763461439
  (0, 13)	0.3947267526922878
  (0, 

In [10]:
doc_list

['买那么多，妈妈住一套，爸爸住一套，子女各住一套，这下子50平都不挤了。',
 '我有一个大胆的想法，公务员的工资拿房子顶账，怎么样？',
 '把视频发到台湾，感化他们早日回归祖国的怀抱！',
 '然后开始贪钱买房，过一段再给抓起来',
 '娘妈的，房子又不能吃，你可以多贪几套，贫农买不起。',
 '规定期限内没有完成商品房购置任务的干部职工，将交流到其他单位工作。']

### 分词
在NLP中，分词（tokenization）是一种特殊的文档切分（segmentation）过程。而文档切分能够将文本拆分成更小的文本块或片段，其中含有更为集中的信息内容。

文档切分可以是将文档分成段落，将段落分成句子，将句子分为短语，将短语分成词条（通常是词），和标点。

分词 是 NLP 流水线 的 第一步，因此他对流水线的后续处理有重要影响。分词器将自然语言文本这种非结构化数据切分成多个信息块，每个块都可以看成可计数的离散元素。

这些元素在文档中的出现频率可以直接用于该文档向量表示。 上述过程立即将非结构化字符串（文本文档）转化为适合机器学习的数值型数据结构。

元素出现频率可以直接被计算机用于触发有用的行动回复。或者也可以以特制方式用于某个机器学习流水线来触发更复杂的决策或行为。通过这种方式构建的词袋向量最常应用于文档检索或搜索。

新增加一列，保存切词后的结果（word） 停用词：定义函数，去除停用词，其中停用词可以使用现有词表。

### 用户自定义字典：
可以指定自己自定义的词典，以便包含 jieba 词库里没有的词。虽然 jieba 有新词识别能力，但是自行添加新词可以保证更高的正确率

用法： jieba.load_userdict(file_name) # file_name 为文件类对象或自定义词典的路径

词典格式和 dict.txt 一样，一个词占一行；每一行分三部分：词语、词频（可省略）、词性（可省略），

用空格隔开，顺序不可颠倒。file_name 若为路径或二进制方式打开的文件，则文件必须为 UTF-8 编码。

词频省略时使用自动计算的能保证分出该词的词频。 例如：

创新办 3 i

云计算 5

凱特琳 nz

台中

# 文本向量化-基于推理（深度学习）方法

用向量表示单词的研究最近正在如火如荼地展开，其中比较成功的方法大致可以分为两种：一种是基于计数的方法；另一种是基于推理的方法。虽然两者在获得单词含义的方法上差别很大，但是两者的背景都是分布式假设。

---

基于推理的方法的主要操作是“推理”。如图3-2所示，当给出周围的单词（上下文）时，预测“?”处会出现什么单词，这就是推理。

>基于推理的方法和基于计数的方法一样，也基于分布式假设。分布式假设假设“单词含义由其周围的单词构成”。
>基于推理的方法将这一假设归结为了上面的预测问题。由此可见，不管是哪种方法，如何对基于分布式假设的“单词共现”建模都是最重要的研究主题

实际上，不论是基于计数（统计）机，还是基于推理（文本向量化）的方法都是一种词的表达，都是转换为计算机能够理解的相似。

如果按照词表达的复杂度，语义包含度来排序，那么

- 基于计数的方法是基于统计的方法，它将单词的出现次数作为单词的表达。

----


one-hot 的缺点：

1.向量维度可能很高，因为自然语言中的词汇量可能非常大，例如中文中常用字有几千个，常用词上万个，其他语言也类似。当词表很大时，One-Hot表示法使用的向量长度很大，计算时不仅会消耗很多内存，计算量也大。

2.词向量无法反映词之间的关系，自然语言的词汇之间存在一定的关系。例如同义词，“大海”和“海洋”两个词的词义是接近的，而它们与“沙漠”这个词的含义差别相对很大。我们希望对应的词向量也有某种特征能反映出这种关系，比如向量间的夹角，“海洋”和“大海”的词向量间夹角可能应该小，而“沙漠”与它们的词向量间夹角更大。

---

后来出现了词嵌入方法。词嵌入方法以一个长度较小的向量表示词，向量中每个数字都是浮点数。具体的数值通过某种算法计算出来，并可以在某种程度上体现词语之间的语义关系。词嵌入对One-Hot表示法实现了维度的压缩和词语间关系的表示。

## Embedding
[参考：pytorch 自然语言处理，入门与实战](https://gitee.com/nlp_practice/nlp_practice_source_code)

>one-hot 表达词语的问题

这是因为我们用one-hot表示来处理单词，随着词汇量的增加，one-hot表示的向量大小也会增加。

比如，在词汇量有100万个的情况下，仅one-hot表示本身就需要占用100万个元素的内存大小。

此外，还需要计算one-hot表示和权重矩阵Win的乘积，这也要花费大量的计算资源。

关于这个问题，可以引入新的Embedding层来解决

**这里的embeding和《深度学习进阶：自然语言处理》概念不同，embedding直接转换为一个指定维度的矩阵，实现高密度向量不经过one-hot过程，而书中依然是输入one-hot，只不过通过一个embbding层加快了处理速度**

----

这里我们主要讨论分析，语句如何变成embedding，并对比one-hot的数据量大小

最后通过embedding 结合torch实现word2vec


实际上之前处理多元回归中，对应category数据就使用了embedding进行处理，

----

实际操作中，embedding可以分为自己构建的词（类别）的嵌入，以及通过预训练模型的嵌入

1. 自我构建的此表

  1. 分词：将中文文本分割成词或者词组。由于中文写作不像英文之间有明显的空格分隔，因此这一步骤对于中文文本处理尤为重要。

  2.建立字典（词汇表）：根据分词的结果，创建一个词汇表，每个唯一的词都对应一个索引。这个词汇表也就是你提到的“字典”，确保每个词都有一个唯一的数字标识。

  3.对分词进行索引：将文本中的每个词替换为词汇表中对应的索引。这一步是将自然语言文本转换为模型能够处理的数值形式。

  4.创建embedding层：初始化一个嵌入矩阵，其中的weight是随机创建的，通常来自于正态分布。这个矩阵的大小是（n, m），其中n是词汇表的大小，m是嵌入向量的维度。
  
  5.输入索引表达的句子到embedding层：将由索引表示的句子输入到嵌入层。每个索引会被映射到嵌入矩阵中对应的向量。

  6. 嵌入层输出：嵌入层根据输入的索引输出对应的嵌入向量，得到的矩阵M的大小是（l, m），其中l是句子的长度。这个矩阵的每一行对应一个词的嵌入向量，且顺序与句子中词的顺序相同。

  7. 模型训练和权重更新：在模型训练过程中，通过反向传播算法更新嵌入层的权重，以便更好地捕捉词之间的语义关系和上下文信息。通过训练，嵌入矩阵中的向量将逐渐包含更丰富的语义信息。

需要注意的几点：

嵌入层的学习是通过整体模型的训练过程实现的，通常包括但不限于嵌入层本身，可能还包括随后的网络层（如卷积层、循环层等），以及一个最终的任务目标（如分类、回归等）。




---
2. 预训练模型的嵌入

   1. 分词
确实，这是处理文本数据的第一步，需要将文本分解成小的单元或词。分词的方法应与预训练模型的训练过程中使用的方法一致，以确保最佳兼容性和词覆盖率。

   2. 使用预训练模型的词汇表
直接使用预训练模型内置的词汇表可以省去自己构建词典的步骤。这样做的关键是确保分词结果与预训练模型的词汇表尽可能匹配。
自己从头开始训练模型不同，在使用预训练模型时，你通常会直接使用该模型自带的词汇表。这意味着不需要自己再构建本地索引词典。你需要确保分词方法与预训练模型在训练时使用的分词方法相兼容，以确保最大程度的覆盖率和准确性。
   3. 映射到预训练模型的索引
将每个分词后的词映射到预训练模型的词汇表索引。如果分词结果中的词不存在于预训练模型的词汇表中，一般使用一个特殊标记（如`<UNK>`）代替。这一步是将文本转换为一系列索引，为后续的向量化做准备。

   4. 载入预训练的嵌入层
载入包含预训练词向量的矩阵，这个矩阵的尺寸是 $(n \times m)$，其中$ n $是词汇表中的词数，$m $是每个词向量的维度。这一步骤关键在于利用已有的丰富语义信息，而不是从零开始训练。

   5. 输入映射索引，获取嵌入向量
通过步骤3得到的索引列表，查询预训练的嵌入层，以获得每个词的嵌入向量。如果输入文本的长度为 $l$，则返回的矩阵尺寸为 $l \times m$，其中每一行对应于输入中一个词的嵌入向量，且保持原文本中词的顺序不变。

 >补充
这个过程有效利用了预训练模型的优势，即利用在大规模语料库上学到的语义信息来增强模型的理解能力。使用预训练的词向量可以显著提高模型在各种自然语言处理任务上的性能，尤其是在可用于训练的数据较少的情况下。

当然，实际操作时，还需注意预训练模型的具体使用方式，包括如何加载模型、如何处理特殊标记等。另外，随着深度学习技术的发展，现在越来越多的任务倾向于使用预训练的语言模型（如BERT、GPT等），这些模型不仅提供了词级别的嵌入，还能捕获词与词之间的上下文关系，进一步提升了处理文本数据的能力。

# pytorch 中词嵌入


### pytorch 中的 embedding
[文档](https://pytorch.org/docs/stable/generated/torch.nn.Embedding.html)

torch.nn.Embedding是PyTorch中的一个模块，用于创建一个嵌入层。这个嵌入层可以将稀疏的、高维的离散数据（比如词汇的索引）映射到一个低维的连续向量空间中。 

```python
torch.nn.Embedding(num_embeddings, embedding_dim, padding_idx=None, max_norm=None, norm_type=2.0, scale_grad_by_freq=False, sparse=False, _weight=None, _freeze=False, device=None, dtype=None)
```
>This module is often used to store word embeddings and retrieve them using indices. The input to the module is a list of indices, and the output is the corresponding word embeddings.

* Parameters
  * num_embeddings (int) – size of the dictionary of embeddings
  例如示入层能够处理的唯一标识符（如单词、字符或其他离散项）的数量，例如一个词表的中唯一的词的个数，分析数据中，好、中、差三个，那么 num_embeddings 就是 3。

  * embedding_dim (int) – the size of each embedding vector

padding_idx (int, optional) – If specified, the entries at padding_idx do not contribute to the gradient; therefore, the embedding vector at padding_idx is not updated during training, i.e. it remains as a fixed “pad”. For a newly constructed Embedding, the embedding vector at padding_idx will default to all zeros, but can be updated to another value to be used as the padding vector.

max_norm (float, optional) – If given, each embedding vector with norm larger than max_norm is renormalized to have norm max_norm.

norm_type (float, optional) – The p of the p-norm to compute for the max_norm option. Default 2.

scale_grad_by_freq (bool, optional) – If given, this will scale gradients by the inverse of frequency of the words in the mini-batch. Default False.

sparse (bool, optional) – If True, gradient w.r.t. weight matrix will be a sparse tensor. See Notes for more details regarding sparse gradients.

其中padding_idx  较为重要

padding_idx的作用
指定填充索引: padding_idx参数允许你指定一个索引，这个索引所对应的嵌入向量会被初始化为0，并且在训练过程中不会被更新。这是非常有用的，因为在处理不等长的序列数据时（如句子或文档），常常需要对较短的序列进行填充（padding）以匹配最长序列的长度，以便它们能够被批量处理。

避免影响模型学习: 使用padding_idx指定的填充向量为零向量可以确保这些填充项不会对模型学习有效特征产生影响。因为这些零向量不携带任何信息，也不会参与到梯度的更新中去。

实现细节: 当你创建一个Embedding层时，如果指定了padding_idx，那么这个索引对应的嵌入向量在初始化时就是一个全零向量，并且在后续的训练过程中保持不变。这意味着无论这个索引出现多少次，其嵌入向量始终为零，不会对损失函数产生贡献，因此也不会影响模型参数的更新。

简而言之，padding_idx的主要作用是在嵌入层中为序列数据的填充部分提供一个不会影响模型学习的“空”表示，有助于处理长度不一的序列数据，同时保持模型的效率和效果。


In [87]:
# 实现预训练模型的载入以及根据预训练模型得到对应词idex的weight
import torch 
import torch.nn as nn 
word_index=torch.tensor([0,2],dtype=torch.long)# 每个个词对应的index
weigt_matrix=torch.FloatTensor([[0.2,0.3,0.4,0.2],[0.2,0.5,0.1,0.222],[0.8,0.23,0.34,0.12]])
print('预训练对应weight矩阵:',weigt_matrix.shape)
embedding=nn.Embedding.from_pretrained(weigt_matrix)

out=embedding(word_index)
print(out)

预训练对应weight矩阵: torch.Size([3, 4])
tensor([[0.2000, 0.3000, 0.4000, 0.2000],
        [0.8000, 0.2300, 0.3400, 0.1200]])


## 实验1.0 读取本地文件，实现
 1.自己构建词表的embeeding
 2.使用预训练模型的embedding

 ---
首先实现单个语句的embedded，然后实现多个语句的embedding，因为多个语句embedding涉及可变长序列问题
Remember, this is a simplified example meant to illustrate the core concept. Real-world applications may require additional steps such as handling padding for variable-length sequences, batch processing, and integrating the embedding process into a larger model architecture for tasks like classification or sequence modeling.

In [77]:
# Import necessary libraries
import pandas as pd
import jieba.posseg as pseg
import torch
import torch.nn as nn
from collections import Counter

# Function to load stopwords from a file，停用词方法
def stopwordslist(filepath):
    """Load stopwords from a specified file."""
    stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()]
    return stopwords

# Build vocabulary from a set of words，构建本地词表，以及构建词到index的字典
def build_vocabulary(words):
    """Build a vocabulary mapping from a set of unique words."""
    word_to_idx = {word: i for i, word in enumerate(words)}
    idx_to_word = {i: word for i, word in enumerate(words)}
    return word_to_idx, idx_to_word, len(words)

if __name__=="__main__":
        # Load stopwords
    stopwords = stopwordslist(r"c:\data\nlp\baidu_stopwords.txt")  # Update with your stopwords file path

    # Read data from a text file
    file_path = r"C:\Users\tom\OneDrive\LUCK\luckLab\IRM_Class2\IRM_class\Deep Learning\data\title.txt"
    data = pd.read_csv(file_path, header=None, engine='python')

    # Rename the first column to 'sentences'
    data.rename(columns={data.columns[0]: 'sentences'}, inplace=True)
    data['words'] = ''  # Initialize the 'words' column for tokenized words
    data['words'] = data['words'].astype('object')  # Ensure it's of type 'object'
    data['sentences'] = data['sentences'].astype(str)  # Convert 'sentences' to string type

    # Tokenize sentences and filter stopwords
    for i in range(len(data['sentences'])):
        doc = data['sentences'][i]
        seq_list = pseg.cut(doc)  # Removed use_paddle for general compatibility
        token = [word for word, flag in seq_list if word not in stopwords]
        data.at[i, 'words'] = token

    # Build vocabulary
    all_words = [word for sublist in data['words'] for word in sublist]
    unique_words = set(all_words)#词表去重
    word_to_idx, idx_to_word, vocab_size = build_vocabulary(unique_words)

    # Convert tokenized words to indices
    data['indices'] = data['words'].apply(lambda wl: [word_to_idx[w] for w in wl if w in word_to_idx])

    # Embedding
    embedding_dim = 200  # Example embedding vector size
    embedding_layer = nn.Embedding(num_embeddings=vocab_size, embedding_dim=embedding_dim)

    # Example: Convert first row's indices to a tensor and get its embedding
    first_row_indices = torch.tensor(data['indices'].iloc[0], dtype=torch.long)
    first_row_embeddings = embedding_layer(first_row_indices)

    # Display embedding output for the first row
    print(f'原始的语句:{data.iloc[0,0]}')
    print(f'原始的语句切词:{data.iloc[0,1]}')
    print(f'原始的语句切词对应index:{data.iloc[0,2]}')
    print(f'自己构建词表得到的embedding输出：{first_row_embeddings.shape}')



原始的语句:求食品专业生化
原始的语句切词:['求', '食品', '专业', '生化']
原始的语句切词对应index:[750, 718, 660, 462]
自己构建词表得到的embedding输出：torch.Size([4, 200])


预训练模型的使用
1. 通过gensim导入，应用预训练模型
[参考gensim](https://blog.csdn.net/qq_42496984/article/details/134128858)
gensim 虽然不在我们具体的应用使用，但是其对理解预训练词向量模型很有帮助
2.pytorch 导入预训练模型
[参考 pytorch](https://blog.csdn.net/quicmous/article/details/130899954)


In [6]:
# 通过预训练模型来得到对应的embedding，向量
#首先使用gensim包，然后使用pytorch进行导入
import gensim 
from gensim.models import KeyedVectors 
file_path = r'C:\data\NLP\tencent-ailab-embedding-zh-d200-v0.2.0-s.txt' 
model = KeyedVectors.load_word2vec_format(file_path, binary=False)
#此种方式比较耗时，再第一次载入后，可保存模型的2进制形式，以后可快速加载。
model.save(r'C:\data\NLP\Tencent_AILab_ChineseEmbedding.bin')
model = KeyedVectors.load(r'C:\data\NLP\Tencent_AILab_ChineseEmbedding.bin')

KeyboardInterrupt: 

In [13]:
import torch
import torch.nn as nn
file_path = r'C:\data\NLP\tencent-ailab-embedding-zh-d200-v0.2.0-s.txt' 
word_vectors={}
i=0
with open(file_path, 'r', encoding='utf-8') as f:
    for line in f:
        if i==0:
            print("跳过第一行")
        else:
            word, vector_str = line.split(' ', 1)#通过splict，将每一行的前两个空格之间的字符作为第一个元素对应word，空格之后的字符作为第二个元素对应word的张量，1代表只划分遇到的第一个空格
            vector = torch.FloatTensor([float(x) for x in vector_str.split()])# 对张量对应的vect_str进行划分得到目标矩阵中的每一个值，并转换为tensor float
            word_vectors[word] = vector# 填充之前定义的字典，其中key=word，value=张量
        i=i+1


# 构建词典和词向量矩阵
words = list(word_vectors.keys())# 将词典中的所有词提取出来，形成一个列表
word_dict={w:i for i,w in enumerate(words)}#构建字典，key=word，value=序号，从而使得后期可以根据词，得到对应序号，而这个序号也就是从对应word_vectors_matrix 中得到对应词张量的序号
word_to_id = {w: i for i, w in enumerate(words)}# 构建一个字典，其中key=word，value=对应的序号
id_to_word = {i: w for i, w in enumerate(words)}# 构建一个字典，其中key=序号，value=对应的word
word_vectors_matrix = torch.stack(list(word_vectors.values()))#首先提取出所有的word_vectors字典中value张量，然后通过torch.stack函数将这些张量堆叠起来，形成一个矩阵
print(f"得到的词向量矩阵形状为：{word_vectors_matrix.shape}")
#得到某个单词的向量

word="德国"
word_idx = word_dict.get(word, None)# 返回字典中的值，如果找不到就返回None
if word_idx is not None:
    word_vector =word_vectors_matrix[word_idx]
    print(word_vector)
else:
    print("Word not found in dictionary")
else:
    # 如果单词不在词向量文件中，则随机初始化一个词向量
    word_vector = embedding.weight.mean(dim=0, keepdim=True)
"""这段代码是用PyTorch实现的计算嵌入层的权重矩阵embedding中所有词向量的平均值，然后将结果赋值给word_vector。
其中，embedding.weight表示嵌入层的权重矩阵，该矩阵的大小为vocabulary_size * embedding_dim，vocabulary_size表示词典大小，embedding_dim表示词向量维度。
mean(dim=0, keepdim=True)表示对embedding.weight按照第0维（也就是第一维）进行取平均值，即对所有词向量进行了平均操作。
keepdim=True表示不改变张量的形状，保持和原始张量一样的形状。最后得到的平均值被存储在一个大小为1 * embedding_dim的张量中。因此，word_vector即为所有词向量的平均值，仍然是一个embedding_dim维的向量。
"""


 


跳过第一行
得到的词向量矩阵形状为：torch.Size([2000000, 200])


tensor([ 2.5289e-01, -2.7513e-01,  1.1242e-01, -1.1463e-01, -5.3790e-02,
        -1.3960e-01,  3.1993e-01, -1.7440e-01, -4.0222e-01, -2.8995e-01,
         4.6583e-02, -1.3470e-03,  1.0058e-01, -2.1037e-02, -2.8920e-03,
         2.1066e-01, -2.8453e-01, -8.0231e-02, -1.6417e-01, -9.3416e-02,
        -4.4384e-02,  5.1756e-01,  7.5510e-03, -3.3110e-01, -3.0940e-01,
        -2.5562e-02,  4.0676e-02,  4.0113e-01, -7.9160e-03, -7.2498e-01,
         6.1048e-01, -5.0779e-01, -7.4470e-02, -1.6077e-01,  3.2976e-02,
        -8.4723e-02, -3.1642e-01,  9.2011e-02, -4.8741e-01, -3.9570e-01,
        -6.0100e-04,  4.9408e-02,  2.2269e-01,  1.2519e-02, -3.2431e-02,
        -4.9998e-01,  8.1089e-02, -4.6930e-01,  1.5592e-01,  1.7350e-02,
         3.1406e-01,  2.1849e-01,  3.4156e-02,  2.7759e-01,  1.4842e-01,
         1.5706e-01, -6.1109e-02, -3.6075e-01,  1.7953e-01,  5.6692e-01,
        -2.8581e-01,  2.2405e-01, -3.0591e-01, -5.9952e-02, -1.2181e-02,
         7.4348e-02,  2.0569e-01,  3.0219e-02,  2.0

In [11]:
words

['</s>',
 '，',
 ',',
 '的',
 '。',
 '、',
 '了',
 '：',
 '“',
 '”',
 '在',
 '_',
 '是',
 '和',
 '-',
 '？',
 '＿',
 '！',
 '（',
 '）',
 '|',
 '有',
 '.',
 '/',
 '章',
 '就',
 ':',
 '第',
 ')',
 '(',
 '也',
 '为',
 '他',
 '与',
 '等',
 '对',
 '；',
 '一个',
 '这个',
 '个',
 '但是',
 '我',
 '自己',
 '上',
 '就是',
 '"',
 '在线',
 '还是',
 '而',
 '我们',
 '很多',
 '也是',
 '没有',
 '他们',
 '已经',
 '她',
 '但',
 '[',
 '因为',
 ']',
 '你',
 '这',
 '将',
 '%',
 '都',
 '～',
 '要',
 '吗',
 '【',
 '】',
 '中',
 '所以',
 '进行',
 '可以',
 '呢',
 '着',
 '都是',
 "'",
 '大家',
 '亚洲',
 '如果',
 '视频',
 '让',
 '?',
 '从',
 '欧美',
 '啊',
 '还',
 '用',
 '下',
 '把',
 '被',
 '吧',
 '现在',
 '到',
 '一些',
 '1',
 '人',
 '对于',
 '……',
 '之后',
 '通过',
 '而且',
 '还有',
 '说',
 '虽然',
 '这些',
 'a',
 'av',
 '后',
 '>',
 '来',
 '自己的',
 '时',
 '不过',
 '在线观看',
 '2',
 '成为',
 '...',
 '开始',
 '那么',
 '或',
 '这种',
 '=',
 '其实',
 ';',
 '免费',
 '同时',
 '及',
 '需要',
 '以',
 '给',
 '~',
 '的一',
 '这样',
 '·',
 '国产',
 '问题',
 '——',
 '或者',
 '￣',
 '却',
 '了一',
 '又',
 '会',
 '3',
 '去',
 '也不',
 '为了',
 '并',
 '不',
 '综合',
 '什么',
 '网站',
 '作为',
 '来说

In [14]:
# 查找近义词
print(f"查找近义词: \n {model.most_similar('邓小平', 10)}")
# model.most_similar(['宋江', '孙悟空'], 10)
# 选出不同意义的词
print(model.doesnt_match("上海 宝马 广州 北京".split(" ")))
# 宝马
# 计算两个词的相似度
print(model.similarity('宋江', '武松'))
# 判断词是否在词表中
print('武松' in model)
# 获取词的向量表示
song=model['宋江']
print(song.shape)

查找近义词: 
 [('毛主席', 0.5600550174713135), ('小平同志', 0.5422388911247253), ('毛泽东', 0.5415623784065247), ('邓小平同志', 0.5413028001785278), ('周总理', 0.5386766195297241), ('周恩来', 0.5214357376098633), ('刘少奇', 0.5086275935173035), ('叶剑英', 0.5060193538665771), ('周恩来总理', 0.5043156743049622), ('胡耀邦', 0.5015550255775452)]
宝马
0.87722385
True
(200,)


## word2vec

word2vec 实际上是一个浅层的神经网络

word2vec中使用的神经网络的输入是上下文，它的正确解标签是被这些上下文包围在中间的单词，即目标词。也就是说，我们要做的事情是，当向神经网络输入上下文时，使目标词出现的概率高（为了达成这一目标而进行学习）。





word2vec可以分为CBOW和skip-gram

<img src="figs\word2vec.png"></img>

两种方法在实现原理上是相识的，不同的是CBOW是拟合输入上下文，得到中间的可能出现的词；而skip-gram是根据出现的词，来预测前后文。

基于推理的方法引入了某种模型，我们将神经网络用于此模型。这个模型接收上下文信息作为输入，并输出（可能出现的）各个单词的出现概率。在这样的框架中，使用语料库来学习模型，使之能做出正确的预测。<font color='red'>另外，作为模型学习的产物，我们得到了单词的分布式表示。这就是基于推理的方法的全貌。</font>

word2vce的目标实际上可以认为是得到一个预训练模型，特别是其中与输入层（词向量）直接点积的权重矩阵，这个矩阵就构成了代表词的一个密集矩阵。

例如我们输入的一个


----

CBOW模型的学习就是调整权重，以使预测准确。其结果是，权重Win（确切地说是Win和Wout两者）学习到蕴含单词出现模式的向量。

根据过去的实验，CBOW模型（和skip-gram模型）得到的单词的分布式表示，特别是使用维基百科等大规模语料库学习到的单词的分布式表示，在单词的含义和语法上符合我们直觉的案例有很多。


In [24]:
import numpy as np 
from sklearn.preprocessing import  OneHotEncoder
import pandas as pd
if __name__ == "__main__":
    #sents="to be or not to be ,this is a question."
    sents2="you say goodbye and i say hello."
    #首先实现分词
    #其次实现分词后词的向量化，这里使用的是one-hot编码


 
    # 使用空格分隔符进行切词
    words = sents2.split(' ')
    # 构建词汇表，确保唯一性
    vocab = sorted(set(words))
    # 创建一个字典，用于映射单词到唯一索引
    word_to_index = {word: i for i, word in enumerate(vocab)}
    # 初始化一个空DataFrame，列名为词汇表中的单词
    df = pd.DataFrame(columns=vocab)
    # 遍历每个单词，根据词汇表中的位置生成one-hot编码
    for word in words:
        one_hot = [0] * len(vocab)  # 创建一个全0的列表，长度等于词汇表的大小
        one_hot[word_to_index[word]] = 1  # 将对应单词的位置设置为1
        df = df.append(pd.Series(one_hot, index=vocab), ignore_index=True)
    print('得到one-hot矩阵，注意one-hot后原始的语句顺序已经丧失，或者说没有了语义，故不能作为目标训练对象 \n',df)
    c_you=df['you'].values.reshape(1,-1)
    print("其中‘you’对应的向量：",c_you )
    c_goodbye=df['goodbye'].values.reshape(1,-1)
    print("其中‘goodbye’对应的向量：",c_goodbye )
    c_target=df['say'].values.reshape(1,-1)
    print("其中目标预测‘say’对应的向量：",c_target )
     



    #原文"to be or not to be ,this is a question."实际就是traget，或者y实际值


得到one-hot矩阵，注意one-hot后原始的语句顺序已经丧失，或者说没有了语义，故不能作为目标训练对象 
   and goodbye hello.  i say you
0   0       0      0  0   0   1
1   0       0      0  0   1   0
2   0       1      0  0   0   0
3   1       0      0  0   0   0
4   0       0      0  1   0   0
5   0       0      0  0   1   0
6   0       0      1  0   0   0
其中‘you’对应的向量： [[1 0 0 0 0 0 0]]
其中‘goodbye’对应的向量： [[0 0 1 0 0 0 0]]
其中目标预测‘say’对应的向量： [[0 1 0 0 0 1 0]]


  df = df.append(pd.Series(one_hot, index=vocab), ignore_index=True)
  df = df.append(pd.Series(one_hot, index=vocab), ignore_index=True)
  df = df.append(pd.Series(one_hot, index=vocab), ignore_index=True)
  df = df.append(pd.Series(one_hot, index=vocab), ignore_index=True)
  df = df.append(pd.Series(one_hot, index=vocab), ignore_index=True)
  df = df.append(pd.Series(one_hot, index=vocab), ignore_index=True)
  df = df.append(pd.Series(one_hot, index=vocab), ignore_index=True)


word2vec实际就是通过输入前后文的词向量，训练模型预测输出词向量，并不断优化的过程

<img src="figs\word2vec2.png" width="30%" height="30%">

以下简单的例子过程输入的变量是前后文的词，希望拟合的是正确的词的。

<img src="figs\word2vec3.png" width="30%" height="30%">

现在需要将对应的前后文，以及目标变为one-hot输入神经网络进行拟合

<img src="figs\word2vec4.png" width="30%" height="30%">

为实现以上步骤，通过《深度学习进阶：自然语言处理》相关函数实现one-hot的处理

In [13]:
# coding: utf-8
import sys
import numpy as np
 
sys.path.append('..')
import numpy as np
from common.layers2 import MatMul
from common.util import preprocess, create_contexts_target, convert_one_hot
sents="to be or not to be ,this is a question."
print("数据准备，将input词，output词都转换成one-hot")
corpus,word_to_index,id_to_word=preprocess(sents)
print("序列化后的语料库corpus",corpus)
print("对应去重后的字典",id_to_word)
#分别对输入语句，以及目标词语进行序列化
contents,target=create_contexts_target(corpus,window_size=1)  
#contents=np.array([[0,2],[1,3],[2,4],[3,5],[1,6]])
print(type(np.array(contents)))
print(f"得到输入的序列化上下文词语矩阵{contents} \n 其形状为{contents.shape}")
 
print(f"得到目标序列化词语矩阵，{target} ")

# 将序列化的input，target都one-hot
vocab_size=len(word_to_index)
print(vocab_size)
target=convert_one_hot(target,vocab_size)
one_hot_contexts=convert_one_hot(contents,vocab_size)
print(f"one-hot后的target:\n {target},形状是{target.shape}")
print(f"one-hot后的输入数据形状是：{one_hot_contexts.shape}：其文本通过一个数组代替，\n {contexts}")


embeding_dim=3 
# 创建一个Embedding模块，其中num_embeddings为标签的唯一数量，embedding_dim为每个嵌入向量的大小
embedding = nn.Embedding(num_embeddings=len(np.unique(corpus)), embedding_dim=embedding_dim)
# 将有序词语对应的代码转换为tensor中的long然后丢给embedding层处理，得到对应的数值矩阵
labels_tensor = torch.tensor(corpus, dtype=torch.long)
embedding_corpus=embedding(labels_tensor)
embedding_corpus.shape




数据准备，将input词，output词都转换成one-hot
序列化后的语料库corpus [0 1 2 3 0 1 4 5 6 7 8]
对应去重后的字典 {0: 'to', 1: 'be', 2: 'or', 3: 'not', 4: ',this', 5: 'is', 6: 'a', 7: 'question', 8: '.'}
<class 'numpy.ndarray'>
得到输入的序列化上下文词语矩阵[[0 2]
 [1 3]
 [2 0]
 [3 1]
 [0 4]
 [1 5]
 [4 6]
 [5 7]
 [6 8]] 
 其形状为(9, 2)
得到目标序列化词语矩阵，[1 2 3 0 1 4 5 6 7] 
9
one-hot后的target:
 [[0 1 0 0 0 0 0 0 0]
 [0 0 1 0 0 0 0 0 0]
 [0 0 0 1 0 0 0 0 0]
 [1 0 0 0 0 0 0 0 0]
 [0 1 0 0 0 0 0 0 0]
 [0 0 0 0 1 0 0 0 0]
 [0 0 0 0 0 1 0 0 0]
 [0 0 0 0 0 0 1 0 0]
 [0 0 0 0 0 0 0 1 0]],形状是(9, 9)
one-hot后的输入数据形状是：(9, 2, 9)：其文本通过一个数组代替，
 [[[1 0 0 0 0 0 0 0 0]
  [0 0 1 0 0 0 0 0 0]]

 [[0 1 0 0 0 0 0 0 0]
  [0 0 0 1 0 0 0 0 0]]

 [[0 0 1 0 0 0 0 0 0]
  [1 0 0 0 0 0 0 0 0]]

 [[0 0 0 1 0 0 0 0 0]
  [0 1 0 0 0 0 0 0 0]]

 [[1 0 0 0 0 0 0 0 0]
  [0 0 0 0 1 0 0 0 0]]

 [[0 1 0 0 0 0 0 0 0]
  [0 0 0 0 0 1 0 0 0]]

 [[0 0 0 0 1 0 0 0 0]
  [0 0 0 0 0 0 1 0 0]]

 [[0 0 0 0 0 1 0 0 0]
  [0 0 0 0 0 0 0 1 0]]

 [[0 0 0 0 0 0 1 0 0]
  [0 0 0 0 0 0 0 0 1]]]


torch.Size([11, 3])

In [6]:
from sklearn.preprocessing import LabelBinarizer,MultiLabelBinarizer
import numpy as np
import torch.nn as nn
import pandas as pd
import torch as torch
import re
if __name__ == "__main__":
    sents="to be or not to be ,this is a question."
    f_features=re.split(pattern=' ',string=sents)
    f_features=np.array(f_features)
    #f_features=np.array(['to','be','or','not','to','be',',','this','is ','水仙','桂花'])
    print(f_features)
    print("the shape of original input is ",f_features.shape)
    one_hot=LabelBinarizer()
    f_1_h=one_hot.fit_transform(f_features)
    print(f"ont-hot后的矩阵shape:{f_1_h.shape},具体值为：\n{f_1_h},其中每一行代表之前的花名")
    #实现embedding，比较大小
    # 将文本标签转换为整数索引
    labels, levels = pd.factorize(f_features)
    print("Integer labels:", labels)
    print("the levels ",levels)
    print("np.unique(labels)",np.unique(labels))
    # 目标：假设每个嵌入向量的维度为5（可以根据需要调整）
    embedding_dim = 3
    # 创建一个Embedding模块，其中num_embeddings为标签的唯一数量，embedding_dim为每个嵌入向量的大小
    embedding = nn.Embedding(num_embeddings=len(np.unique(labels)), embedding_dim=embedding_dim)
    # 将NumPy数组转换为PyTorch张量
    labels_tensor = torch.tensor(labels, dtype=torch.long)
    # 获取嵌入向量
    cx = embedding(labels_tensor)
    print(f"the shape of Embedding matrix:{cx.shape},\n Embedding vectors:\n")
    print("可以看到最终embedding的矩阵大小小于one-hot矩阵大小，但是注意这里只是把所有的词实现了向量化，\n 其中行就代表一个dim=3 的向量，但没有实现word2vce要求的前后文以及对应target向量化")


['to' 'be' 'or' 'not' 'to' 'be' ',this' 'is' 'a' 'question.']
the shape of original input is  (10,)
ont-hot后的矩阵shape:(10, 8),具体值为：
[[0 0 0 0 0 0 0 1]
 [0 0 1 0 0 0 0 0]
 [0 0 0 0 0 1 0 0]
 [0 0 0 0 1 0 0 0]
 [0 0 0 0 0 0 0 1]
 [0 0 1 0 0 0 0 0]
 [1 0 0 0 0 0 0 0]
 [0 0 0 1 0 0 0 0]
 [0 1 0 0 0 0 0 0]
 [0 0 0 0 0 0 1 0]],其中每一行代表之前的花名
Integer labels: [0 1 2 3 0 1 4 5 6 7]
the levels  ['to' 'be' 'or' 'not' ',this' 'is' 'a' 'question.']
np.unique(labels) [0 1 2 3 4 5 6 7]
the shape of Embedding matrix:torch.Size([10, 3]),
 Embedding vectors:

可以看到最终embedding的矩阵大小小于one-hot矩阵大小，但是注意这里只是把所有的词实现了向量化，但没有实现word2vce要求的前后文以及对应target向量化


在以上代码的基础上，结合embedding，实现word2vec，具体步骤如下

1. 进行分词，
2. 实现上下文-target词的“输入”-“预测”对，并进行向量化
3. 实现模型的训练,并返回对应训练好的向量，通过训练好的模型，来通过上下文预测对应的中间词

模型中
```python
   embedded = self.embeddings(inputs).mean(dim=0) # 注意这里的改动，聚合上下文词向量
```
实际上体现了word2vec的特点，其考虑了上下文，但是必须需要平均后载入下一层，这一平均实际就使得上下文顺序的语义丧失了


In [36]:
 
import torch
from torch import nn
from collections import Counter
import numpy as np
import torch.nn.functional as F
import torch.optim as optim
# 预处理
def preprocess(sentence):
    sentence = sentence.lower().replace('.', ' .').replace(',', ' ,')
    words = sentence.split()
    word_counts = Counter(words)
    vocabulary = set(words)
    word_to_idx = {word: i for i, word in enumerate(vocabulary)}
    idx_to_word = {i: word for i, word in enumerate(vocabulary)}
    return words, word_to_idx, idx_to_word, vocabulary

class CBOW(nn.Module):
    def __init__(self, vocab_size, embedding_dim):
        super(CBOW, self).__init__()
        self.embeddings = nn.Embedding(num_embeddings=vocab_size, embedding_dim=embedding_dim)
        self.linear = nn.Linear(embedding_dim, vocab_size)

    def forward(self, inputs):
        embedded = self.embeddings(inputs).mean(dim=0) # 注意这里的改动，聚合上下文词向量
        out = self.linear(embedded)
        return out
    
def create_context_target_pairs(words, word_to_idx, context_size=2):
    data = []
    for i in range(context_size, len(words) - context_size):
        context = [word_to_idx[words[i - j - 1]] for j in range(context_size)] + [word_to_idx[words[i + j + 1]] for j in range(context_size)]
        target = word_to_idx[words[i]]
        data.append((context, target))
    return data


print(data)
if __name__=='__main__':
    sentence="to be or not to be ,this is a question."
    words, word_to_idx, idx_to_word, vocabulary = preprocess(sentence)
    vocab_size=len(vocabulary)
    print(f"array后的词{words},\n word to index 词表{word_to_idx}, \n index to word 字典{idx_to_word} \n 词表 {vocabulary} \n 词表长度{vocab_size}")
    context_size = 1#上下文单词的长度，1即只考虑上下文1个单词
    data = create_context_target_pairs(words, word_to_idx, context_size)

    ##开始训练模型，与其他神经网络训练步骤一致##
    device='cuda'
    cbow=CBOW(vocab_size,3)
    cbow.to(device)
    lr=0.001 
    optimizer = optim.Adam(cbow.parameters(), lr=0.0005)
    loss_fn = nn.CrossEntropyLoss()

    # 训练循环
    epochs = 10
    train_loss_list = []
 
    train_acc_list = []
 
    for epoch in range(epochs):
        train_epoch_loss=[]
        train_epoch_acc=[]
        cbow.train()
        for context, target in data:
            context  =  torch.tensor(context).long().to(device)
            target = torch.tensor(target).long().to(device)

            optimizer.zero_grad()
            outputs = cbow(context)
            loss = loss_fn(outputs, target)
            loss.backward()
           #acc计算
            _,pred_label=torch.max(outputs,0)
            #计算得到二维数组中值最大的那个的索引， 
            #返回两个值：一是每个输入样本在指定维度（
            #这里是维度1，即类别分数）上的最大值，二是这些最大值对应的索引。
            #print(pred_label)
            print(f"the context{context},predicted label:{pred_label}, the real label:{target}")
            #acc = (pred_label == target).sum().item() / target.size(0) # 适用于批量大小大于1的情况
            optimizer.step()
            train_epoch_loss.append(loss.item())
            #train_epoch_acc.append(acc)

        # 可选：在此处添加代码计算训练损失和精度
        train_mean_batch_loss=np.mean(train_epoch_loss)
        #train_mean_batch_acc=np.mean(train_epoch_acc)#该epoch的平均acc
        train_loss_list.append(train_mean_batch_loss)
        #train_acc_list.append(train_mean_batch_acc)#附加acc到list，提供后期作图
        #print(f"Epoch {epoch+1}, the last one batch in this epoch train Loss: {loss.item()}")#这里loss.item 计算的是最后一个batch的损失值
        print(f"Epoch {epoch+1}, the mean of this epoch train loss is :  {train_mean_batch_loss}") 
        #print(f"Epoch {epoch+1}, the mean train ac of this epoch c is :  {train_mean_batch_acc*100}%") 
        print("----------------------------------------------------------------")
  
 
 

     

[([8, 6], 7), ([7, 1], 6), ([6, 8], 1), ([1, 7], 8), ([8, 5], 7), ([7, 0], 5), ([5, 2], 0), ([0, 4], 2), ([2, 3], 4)]
array后的词['to', 'be', 'or', 'not', 'to', 'be', ',this', 'is', 'a', 'question', '.'],
 word to index 词表{'is': 0, 'not': 1, 'a': 2, '.': 3, 'question': 4, ',this': 5, 'or': 6, 'be': 7, 'to': 8}, 
 index to word 字典{0: 'is', 1: 'not', 2: 'a', 3: '.', 4: 'question', 5: ',this', 6: 'or', 7: 'be', 8: 'to'} 
 词表 {'is', 'not', 'a', '.', 'question', ',this', 'or', 'be', 'to'} 
 词表长度9
the contexttensor([8, 6], device='cuda:0'),predicted label:5, the real label:7
the contexttensor([7, 1], device='cuda:0'),predicted label:2, the real label:6
the contexttensor([6, 8], device='cuda:0'),predicted label:5, the real label:1
the contexttensor([1, 7], device='cuda:0'),predicted label:2, the real label:8
the contexttensor([8, 5], device='cuda:0'),predicted label:2, the real label:7
the contexttensor([7, 0], device='cuda:0'),predicted label:2, the real label:5
the contexttensor([5, 2], device

In [26]:
data
for inputs, target in data:
    print(inputs)
    print(target)

[8, 6]
7
[7, 1]
6
[6, 8]
1
[1, 7]
8
[8, 5]
7
[7, 0]
5
[5, 2]
0
[0, 4]
2
[2, 3]
4


In [None]:
# coding: utf-8
import sys
import numpy as np
 
sys.path.append('..')
import numpy as np
from common.layers2 import MatMul
from common.util import preprocess, create_contexts_target, convert_one_hot
sents="to be or not to be ,this is a question."
print("数据准备，将input词，output词都转换成one-hot")
corpus,word_to_index,id_to_word=preprocess(sents)
print("序列化后的语料库corpus",corpus)
print("对应去重后的字典",id_to_word)
#分别对输入语句，以及目标词语进行序列化
contents,target=create_contexts_target(corpus,window_size=1) #函数输出有问题，手工输出
#contents=np.array([[0,2],[1,3],[2,4],[3,5],[1,6]])
print(type(np.array(contents)))
print(f"得到输入的序列化上下文词语矩阵{contents} \n 其形状为{contents.shape}")
target=np.array([0,1,2,3,4,1,5,6])
print(f"得到目标序列化词语矩阵，{target} ")

# 将序列化的input，target都one-hot
vocab_size=len(word_to_index)
print(vocab_size)
target=convert_one_hot(target,vocab_size)
contexts=convert_one_hot(contents,vocab_size)
print(f"one-hot后的target:\n {target},形状是{target.shape}")
print(f"one-hot后的输入数据形状是：{contexts.shape}：其文本通过一个数组代替，\n {contexts}")

In [None]:
# coding: utf-8
import sys
import numpy as np
 
sys.path.append('..')
import numpy as np
from common.layers2 import MatMul
from common.util import preprocess, create_contexts_target, convert_one_hot
#MatMul 实现了基本的网络，包括forward，backword以及forward中的矩阵乘积
W=np.random.randn(7,3)#线性层对应的权参矩阵，先进行随机生成
layer=MatMul(W)#实例化第一层，对应输入层
h_you=layer.forward(c_you)#you 通过第一层liner得到的输出（没有激活，relu）
h_goodbye=layer.forward(c_goodbye)#say 通过第一层liner得到的输出（没有激活，relu）
print("you 通过第一层liner得到的输出",h_you)
print("say 通过第一层liner得到的输出",h_goodbye)
h=(h_you+h_goodbye)/2 #在输入最后一层之前进行处理

print("数据准备，将input词，output词都转换成one-hot")
corpus,word_to_index,id_to_word=preprocess(sents2)
print("序列化后的语料库corpus",corpus)
print("对应字典",id_to_word)