## 词向量和spaCy求句子的相似度。

In [1]:
# 导入spacy库
import spacy

In [3]:
# 使用特定环境中的Python下载英语中型模型
!/root/miniconda3/envs/spacy-tutorial/bin/python -m spacy download en_core_web_md

Looking in indexes: http://mirrors.aliyun.com/pypi/simple
Collecting en-core-web-md==3.7.1
  Downloading https://github.com/explosion/spacy-models/releases/download/en_core_web_md-3.7.1/en_core_web_md-3.7.1-py3-none-any.whl (42.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m42.8/42.8 MB[0m [31m33.5 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
Installing collected packages: en-core-web-md
Successfully installed en-core-web-md-3.7.1
[0m[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('en_core_web_md')


In [4]:
# 加载英语中型模型
nlp = spacy.load("en_core_web_md")

In [5]:
# 从文件中读取文本
with open("data/wiki_us.txt", "r") as f:
    text = f.read()

In [6]:
# 使用spacy处理文本
doc = nlp(text)

In [7]:
# 获取文档中的第一个句子
sentence1 = list(doc.sents)[0]

In [8]:
# 打印第一个句子
sentence1

The United States of America (U.S.A. or USA), commonly known as the United States (U.S. or US) or America, is a country primarily located in North America.

In [9]:
# 导入numpy库
import numpy as np

In [10]:
# 定义一个单词
your_word = "country"

In [11]:
# 查找与给定单词最相似的10个单词
# 涉及词向量的计算和比较
ms = nlp.vocab.vectors.most_similar(
    np.asarray([nlp.vocab.vectors[nlp.vocab.strings[your_word]]]), n=10)

代码解释：

当然可以。我来为你详细拆解这行代码：

```python:/Users/jiakai/Downloads/demo2.ipynb
ms = nlp.vocab.vectors.most_similar(
    np.asarray([nlp.vocab.vectors[nlp.vocab.strings[your_word]]]), n=10)
```

让我们从里到外逐步解析：

1. `your_word`: 这是你之前定义的要查找相似词的单词。

2. `nlp.vocab.strings[your_word]`: 
   - `nlp.vocab` 是词汇表对象
   - `strings` 是一个双向映射，可以通过字符串找到对应的哈希值
   - 这步操作将 `your_word` 转换为其在词汇表中的唯一标识符（哈希值）

3. `nlp.vocab.vectors[...]`: 
   - `vectors` 存储了词汇表中每个词的向量表示
   - 这步使用上一步得到的标识符来获取 `your_word` 的词向量

4. `np.asarray([...])`: 
   - 将获取的词向量转换为NumPy数组
   - 这里用方括号包裹是因为 `most_similar` 方法期望输入是一个二维数组

5. `nlp.vocab.vectors.most_similar(...)`: 
   - `most_similar` 是一个方法，用于找到与给定向量最相似的其他向量
   - 它接受一个向量（或向量数组）作为输入
   - `n=10` 参数指定要返回的最相似词的数量

6. `ms =`: 将结果赋值给变量 `ms`

总结：这行代码的作用是找出与 `your_word` 最相似的10个词。它首先获取 `your_word` 的词向量，然后在整个词汇表的向量空间中寻找最接近这个向量的其他10个向量，这些向量对应的词就是最相似的词。

这种方法利用了词向量的特性：在向量空间中，语义相近的词的向量往往也较为接近。

词向量的主要使用发生在 most_similar() 方法内部。这个方法会：
计算输入向量（"country" 的词向量）与词汇表中所有其他词的向量之间的相似度。
根据相似度对所有词进行排序。
返回前 n 个最相似的词的索引（在这个例子中 n=10）。
这个过程大量使用了词向量，但是所有的向量计算都在 most_similar() 方法内部进行，我们看不到具体的计算过程。

In [None]:
# 获取相似单词的字符串表示
words = [nlp.vocab.strings[w] for w in ms[0][0]]

代码解释：

当然，我来解析这行代码：

```python:/Users/jiakai/Downloads/demo2.ipynb
# 获取相似单词的字符串表示
words = [nlp.vocab.strings[w] for w in ms[0][0]]
```

这行代码的目的是获取之前找到的最相似单词的字符串表示。让我们逐步分析：

1. `ms`: 这是之前 `most_similar()` 方法返回的结果。它通常是一个包含多个元素的元组。

2. `ms[0]`: 这是获取元组中的第一个元素。在 `most_similar()` 的返回值中，第一个元素通常是一个包含相似词索引的数组。

3. `ms[0][0]`: 这进一步获取了第一个元素中的第一个元素。这可能是因为 `most_similar()` 返回的结果被包装在了一个额外的列表中。

4. `[w for w in ms[0][0]]`: 这是一个列表推导式，遍历 `ms[0][0]` 中的每个元素（每个元素是一个相似词的索引）。

5. `nlp.vocab.strings[w]`: 对于每个索引 `w`，这行代码使用 `nlp.vocab.strings` 将索引转换回对应的字符串（即单词）。

6. 最后，整个列表推导式的结果被赋值给 `words` 变量，这样 `words` 就包含了所有相似单词的字符串表示。

使用 `ms[0][0]` 而不是直接使用 `ms` 或 `ms[0]` 可能是因为 `most_similar()` 方法返回的数据结构有多层嵌套。具体的结构可能如下：

- `ms` 是一个元组
- `ms[0]` 是一个列表
- `ms[0][0]` 是包含实际相似词索引的数组

如果想确认这种结构，可以尝试打印 `ms`、`ms[0]` 和 `ms[0][0]` 来查看它们的内容和结构。这样可以更好地理解为什么需要使用 `ms[0][0]`。

感谢你提供 `ms[0]` 的结果。这个输出帮助我们更好地理解代码的结构。让我解释一下这个结果：

```python:/Users/jiakai/Downloads/demo2.ipynb
array([[12389239844680878404,  1435501296278296988,  3205366385982613224,
        10101261077591962824, 10067128433980916117, 13467190378500458811,
         7523086094447079607,  4411440909759659592,  3830018849180425586,
          769100778973147158]], dtype=uint64)
```

1. 这是一个 NumPy 数组（`np.array`）。
2. 数组的类型是 `uint64`，表示无符号 64 位整数。
3. 数组是二维的，但只有一行（注意外层的方括号）。
4. 每个数字都是一个很大的整数，这些可能是词汇表中单词的唯一标识符或哈希值。

基于这个结果，我们可以更新对代码的理解：

```python:/Users/jiakai/Downloads/demo2.ipynb
# 获取相似单词的字符串表示
words = [nlp.vocab.strings[w] for w in ms[0][0]]
```

1. `ms[0]` 已经是一个包含所有相似词标识符的数组。
2. `ms[0][0]` 用于获取这个数组中的所有元素（因为数组是二维的，但只有一行）。
3. 列表推导式遍历这些标识符，并使用 `nlp.vocab.strings` 将每个标识符转换回对应的字符串（单词）。

所以，使用 `ms[0][0]` 是正确的，因为它确保我们获取到数组中的所有元素。如果直接使用 `ms[0]`，我们会得到一个二维数组，这不是我们想要的。

这种结构（二维数组但只有一行）可能是 spaCy 的 `most_similar()` 方法的特定返回格式，可能是为了保持与可能返回多行结果的情况的一致性。

In [None]:
# 获取相似度距离
distances = ms[2]

In [14]:
# 打印相似单词列表
words

['country—0,467',
 'nationâ\x80\x99s',
 'countries-',
 'continente',
 'Carnations',
 'pastille',
 'бесплатно',
 'Argents',
 'Tywysogion',
 'Teeters']

In [15]:
# 创建一个新的文档对象
doc1 = nlp("I like salty fries and hamburgers.")

In [16]:
# 创建另一个新的文档对象
doc2 = nlp("Fast food tastes very good.")

In [17]:
# 打印两个文档对象的相似度
print(doc1, "<->", doc2, doc1.similarity(doc2))

I like salty fries and hamburgers. <-> Fast food tastes very good. 0.691649353055761


In [18]:
# 创建第三个文档对象
doc3 = nlp("The Empire State Building is in new York.")

In [20]:
# 打印第一个和第三个文档对象的相似度
print(doc1, "<->", doc3, doc1.similarity(doc3))

I like salty fries and hamburgers. <-> The Empire State Building is in new York. 0.25291676547652614


In [21]:
# 创建第四个文档对象
doc4 = nlp("I enjoy oranges.")

In [22]:
# 创建第五个文档对象
doc5 = nlp("I enjoy apples.")

In [25]:
# 打印第四个和第五个文档对象的相似度
print(doc4, "<->", doc5, doc4.similarity(doc5))

I enjoy oranges. <-> I enjoy apples. 0.9775702131220241


In [26]:
# 创建第六个文档对象
doc6 = nlp("I enjoy burgers.")

In [28]:
# 打印第四个和第六个文档对象的相似度
print(doc4, "<->", doc6, doc4.similarity(doc6))

I enjoy oranges. <-> I enjoy burgers. 0.9628307469536478


In [29]:
# 从第一个文档中提取"salty fries"这个短语
french_fries = doc1[2:4]

In [30]:
# 从第一个文档中提取"hamburgers"这个词
burgers = doc1[5]

In [32]:
# 打印"salty fries"和"hamburgers"的相似度
print(french_fries, "<->", burgers, french_fries.similarity(burgers))

salty fries <-> hamburgers 0.6938489675521851


## 补充缺失的pipelines相关的代码

![](https://cdn.sa.net/2024/09/14/GaIXLTxfnjduih5.webp)

## spaCy的pipelines有啥用？

![](https://cdn.sa.net/2024/09/14/lEMHCFO6vsbaWpL.webp)