## 学习目标

- spaCy库
- NLTK库
- Huggingface的Transformer库
- fairseq

## 其余要点

1、在Jupyter Notebook中使用您创建的虚拟环境作为内核的方法

```bash
# 激活名为 spacy-tutorial 的 Conda 虚拟环境
conda activate spacy-tutorial

# 在当前激活的环境中安装 ipykernel 包
conda install ipykernel

# 安装一个新的 Jupyter kernel，使用当前环境
# --user: 为当前用户安装
# --name: 指定 kernel 的名称
# --display-name: 指定在 Jupyter 中显示的名称
python -m ipykernel install --user --name=spacy-tutorial --display-name "Python (spacy-tutorial)"
```

2、autodl平台使用代理不建议用crashshell。

3、conda设置代理

```bash
# 编辑conda的配置文件
vim ～/.condarc
# 设置代理
proxy_servers:
  http: http://localhost:7890
  https: http://localhost:7890
```

4、NLP和NLU的区别与联系

NLP是一个更广泛的领域，包含了从基本的文本处理到复杂的语言理解任务。而NLU则专注于更深层次的语言理解，需要更复杂的语义和上下文分析。NLU可以被视为NLP的一个更高级的子集，它建立在NLP的基础技术之上，但更侧重于理解语言的含义和意图。

![](https://cdn.sa.net/2024/09/09/9dqvlarfeQk2VJD.webp)

5、spaCy的安装

```bash
# 从 conda-forge 频道安装 spaCy 库
conda install -c conda-forge spacy

# 下载并安装英语的小型语言模型
# en_core_web_sm 是一个轻量级的英语模型，适合快速处理和基本NLP任务
python -m spacy download en_core_web_sm
```

6、spaCy的网站：https://spacy.io

7、spaCy中的C大些的解释

spaCy 中的 "C" 大写是因为其命名源于 "Cython"。这里有几个关键点解释：

1. 命名由来：
   - spaCy 的创始人 Matthew Honnibal 解释说，名字中的大写 "C" 是为了强调该库使用了 Cython。

2. Cython 的作用：
   - Cython 是一个优化的静态编译器，它将 Python 代码转换为 C 代码。
   - 这种方法可以显著提高性能，特别是对于计算密集型任务。

3. 性能优势：
   - 通过使用 Cython，spaCy 能够实现比纯 Python 实现更快的处理速度。
   - 这对于处理大量文本数据的 NLP 任务来说非常重要。

4. 品牌标识：
   - 大写的 "C" 也成为了 spaCy 的一个独特标识，使其在众多 NLP 库中更容易被记住和识别。

5. 命名惯例：
   - 虽然不完全符合 Python 的命名惯例（通常推荐使用全小写的包名），但这种特殊的大写字母在一些知名库中也不罕见（如 NumPy、SciPy 等）。

总的来说，spaCy 中的大写 "C" 既是对其技术实现（使用 Cython）的一种致敬，也是一个独特的品牌标识。这种命名方式强调了该库在性能方面的优势，这是其在 NLP 领域受欢迎的重要原因之一。

In [1]:
# 导入 spacy 库
import spacy

In [2]:
# 加载英语语言模型
nlp = spacy.load("en_core_web_sm")

In [3]:
# 从文件中读取文本
with open('data/wiki_us.txt', 'r') as f:
    text = f.read()

In [4]:
# 显示读取的文本内容
text

"The United States of America (U.S.A. or USA), commonly known as the United States (U.S. or US) or America, is a country primarily located in North America. It consists of 50 states, a federal district, five major unincorporated territories, 326 Indian reservations, and some minor possessions.[j] At 3.8 million square miles (9.8 million square kilometers), it is the world's third- or fourth-largest country by total area.[d] The United States shares significant land borders with Canada to the north and Mexico to the south, as well as limited maritime borders with the Bahamas, Cuba, and Russia.[22] With a population of more than 331 million people, it is the third most populous country in the world. The national capital is Washington, D.C., and the most populous city is New York.\n\nPaleo-Indians migrated from Siberia to the North American mainland at least 12,000 years ago, and European colonization began in the 16th century. The United States emerged from the thirteen British colonies 

In [5]:
# 使用 spaCy 处理文本
doc = nlp(text)

In [6]:
# 显示处理后的文档对象
doc

The United States of America (U.S.A. or USA), commonly known as the United States (U.S. or US) or America, is a country primarily located in North America. It consists of 50 states, a federal district, five major unincorporated territories, 326 Indian reservations, and some minor possessions.[j] At 3.8 million square miles (9.8 million square kilometers), it is the world's third- or fourth-largest country by total area.[d] The United States shares significant land borders with Canada to the north and Mexico to the south, as well as limited maritime borders with the Bahamas, Cuba, and Russia.[22] With a population of more than 331 million people, it is the third most populous country in the world. The national capital is Washington, D.C., and the most populous city is New York.

Paleo-Indians migrated from Siberia to the North American mainland at least 12,000 years ago, and European colonization began in the 16th century. The United States emerged from the thirteen British colonies est

In [7]:
# 显示文档中的标记数量
len(doc)

654

In [8]:
# 显示原始文本的字符数量
len(text)

3521

Q：为啥doc的len要明显少于text啊？

A：
`doc` 的长度比 `text` 的长度小是因为它们计算的单位不同：

1. `len(text)` 计算的是字符数：
   - 包括所有字母、数字、标点符号和空白字符（如空格、换行符）。

2. `len(doc)` 计算的是标记（token）数：
   - spaCy 将文本分割成有意义的单位，通常是单词、标点符号等。
   - 它会忽略大多数空白字符。
   - 某些复合词可能被视为单个标记。

举例说明：

```python
text = "The U.S.A. is great!"
doc = nlp(text)

print(len(text))  # 输出：20 (包括所有字符和空格)
print(len(doc))   # 输出：5 (The, U.S.A., is, great, !)
```

在这个例子中：
- `text` 包含 20 个字符（包括空格）。
- `doc` 只包含 5 个标记，因为 spaCy 将 "U.S.A." 视为一个标记，并忽略了空格。

这种差异使得 `doc` 更适合进行语言学分析，因为它将文本分割成了更有意义的单位。

In [9]:
# 打印原始文本的前 10 个字符
for token in text[0:10]:
    print(token)

T
h
e
 
U
n
i
t
e
d


In [10]:
# 打印处理后文档的前 10 个标记
for token in doc[0:10]:
    print(token)

The
United
States
of
America
(
U.S.A.
or
USA
)


In [11]:
# 打印原始文本按空格分割后的前 10 个单词
for token in text.split()[0:10]:
    print(token)

The
United
States
of
America
(U.S.A.
or
USA),
commonly
known


In [12]:
# 打印文档中的每个句子
for sent in doc.sents:
    print(sent)

The United States of America (U.S.A. or USA), commonly known as the United States (U.S. or US) or America, is a country primarily located in North America.
It consists of 50 states, a federal district, five major unincorporated territories, 326 Indian reservations, and some minor possessions.[j]
At 3.8 million square miles (9.8 million square kilometers), it is the world's third- or fourth-largest country by total area.[d]
The United States shares significant land borders with Canada to the north and Mexico to the south, as well as limited maritime borders with the Bahamas, Cuba, and Russia.[22]
With a population of more than 331 million people, it is the third most populous country in the world.
The national capital is Washington, D.C., and the most populous city is New York.


Paleo-Indians migrated from Siberia to the North American mainland at least 12,000 years ago, and European colonization began in the 16th century.
The United States emerged from the thirteen British colonies es

In [13]:
# 获取第一个句子
sentence1 = list(doc.sents)[0]

In [14]:
# 显示第一个句子
sentence1

The United States of America (U.S.A. or USA), commonly known as the United States (U.S. or US) or America, is a country primarily located in North America.

In [15]:
# 打印文档的前 10 个标记
for token in doc[:10]:
    print(token)

The
United
States
of
America
(
U.S.A.
or
USA
)


In [16]:
# 获取第一个句子的第三个标记并显示
token2 = sentence1[2]
token2

States

In [17]:
# 显示标记的文本
token2.text

'States'

Q：token和token.text的差别是数据类型的不同吗？

A：是的，你的理解是正确的。`token` 和 `token.text` 的主要区别在于它们的数据类型和包含的信息量：

1. `token`:
   - 数据类型：spaCy 的 `Token` 对象
   - 包含丰富的语言学信息，如词性、依存关系、词形还原等
   - 是一个复杂对象，包含多个属性和方法

2. `token.text`:
   - 数据类型：Python 字符串 (`str`)
   - 只包含标记的原始文本内容
   - 是一个简单的字符串，没有额外的语言学信息

举例说明：

```python
import spacy

nlp = spacy.load("en_core_web_sm")
doc = nlp("The cat sat on the mat.")

for token in doc:
    print(f"Token: {token}")
    print(f"Token.text: {token.text}")
    print(f"Type of token: {type(token)}")
    print(f"Type of token.text: {type(token.text)}")
    print("---")
```

输出可能如下：

```
Token: The
Token.text: The
Type of token: <class 'spacy.tokens.token.Token'>
Type of token.text: <class 'str'>
---
Token: cat
Token.text: cat
Type of token: <class 'spacy.tokens.token.Token'>
Type of token.text: <class 'str'>
---
...
```

这个例子清楚地展示了 `token` 是 spaCy 的 `Token` 对象，而 `token.text` 是 Python 的字符串对象。使用 `token` 可以访问更多语言学特征，而 `token.text` 只能获取原始文本。

In [18]:
# 显示标记的左边界
token2.left_edge

The

In [20]:
# 显示标记的右边界
token2.right_edge

America

Q：这个文件中的token2.left_edge是The, right_edge是America怎么理解？

the united states of america.

其中的token2.text是states

A：
你的观察很敏锐。这个结果确实需要一些解释。让我们来分析一下：

1. `token2.text` 是 "States"，这是正确的。

2. `token2.left_edge` 是 "The"，`token2.right_edge` 是 "America"。这看起来似乎包含了整个短语 "The United States of America"。

这种行为是由 spaCy 的命名实体识别（Named Entity Recognition, NER）系统导致的。在这个例子中：

1. spaCy 将整个短语 "The United States of America" 识别为一个单一的命名实体（可能是 GPE - Geopolitical Entity）。

2. 当你访问一个标记的 `left_edge` 或 `right_edge` 时，如果该标记是一个命名实体的一部分，spaCy 会返回整个实体的边界，而不仅仅是单个标记的边界。

3. 因此，虽然 `token2` 本身只是 "States"，但它是更大实体 "The United States of America" 的一部分，所以 `left_edge` 和 `right_edge` 返回了整个实体的边界。

你可以通过以下方式验证这一点：

```python
print(token2.ent_type_)  # 应该输出 'GPE' 或类似的实体类型
print(token2.ent_iob_)   # 应该输出 'I'，表示它在实体内部

# 打印整个实体
print(doc[token2.left_edge.i:token2.right_edge.i+1])
```

这种行为在处理命名实体时很有用，因为它允许你轻松地获取整个实体，而不仅仅是单个单词。但是，如果你只想获取单个标记的直接相邻标记，你可能需要使用其他方法，比如 `token2.i` （标记的索引）来手动访问相邻的标记。


In [None]:
# 显示标记的实体类型 ID
token2.ent_type

384

In [22]:
# 显示标记的实体类型名称
token2.ent_type_

'GPE'

Q：
这个的结果是384和GPE，咋理解呢？


A：
这两个结果是相关的，它们都表示实体类型，但以不同的形式呈现：

1. `token2.ent_type` 返回 384：
   - 这是实体类型的整数 ID。
   - spaCy 内部使用这些数字 ID 来表示不同的实体类型。
   - 这种表示方式在内部处理时更高效。

2. `token2.ent_type_` 返回 'GPE'：
   - 这是实体类型的字符串表示。
   - GPE 代表 "Geopolitical Entity"（地理政治实体）。
   - 这种表示方式更易读，适合人类理解和显示。

解释：
- GPE 通常用于表示国家、城市、州等地理政治实体。
- 在这个例子中，"States" 是 "United States of America" 的一部分，被识别为一个 GPE。

spaCy 使用这种双重表示（数字 ID 和字符串）是为了在效率和可读性之间取得平衡：
- 数字 ID（如 384）用于内部处理，更快速高效。
- 字符串表示（如 'GPE'）用于输出和调试，更易于理解。

你可以使用 spaCy 的 `explain()` 函数来获取更多关于特定实体类型的信息：

```python
import spacy
nlp = spacy.load("en_core_web_sm")
print(spacy.explain("GPE"))
```

这会输出类似 "Countries, cities, states" 的解释，帮助你理解这个实体类型的含义。

In [23]:
# 显示标记的 IOB 标记
# 表示在实体内部
token2.ent_iob_

'I'

In [24]:
# 显示标记的词形还原结果
token2.lemma_

'States'

In [25]:
# 显示第一个句子中第 13 个标记的词形还原结果
sentence1[12].lemma_

'know'

In [26]:
# 打印第一个句子中的第 13 个标记
print(sentence1[12])

known


In [27]:
# 显示标记的形态学特征
# 表示的是单数形式
token2.morph

Number=Sing

In [28]:
# 显示第一个句子中第 13 个标记的形态学特征
# 表示的是复合特征
sentence1[12].morph

Aspect=Perf|Tense=Past|VerbForm=Part

Q：输出解释

A：
好的，让我解释这两个形态学特征集：

1. `Number=Sing`

- `Number` 指的是数（grammatical number）
- `Sing` 是 "Singular" 的缩写，表示单数
- 所以 `Number=Sing` 意味着这个词是单数形式

例如，"cat" 是单数（Number=Sing），而 "cats" 是复数（Number=Plur）。

2. `Aspect=Perf|Tense=Past|VerbForm=Part`

这是一个复合特征，描述了一个动词的多个方面：

- `Aspect=Perf`: 
  - `Aspect` 指动作的完成程度
  - `Perf` 是 "Perfect" 的缩写，表示完成体
  - 完成体通常表示一个已经完成的动作

- `Tense=Past`: 
  - `Tense` 指时态
  - `Past` 表示过去时

- `VerbForm=Part`:
  - `VerbForm` 指动词形式
  - `Part` 是 "Participle" 的缩写，表示分词

综合起来，这个特征集描述的是一个过去完成时的分词形式。在英语中，这通常对应于动词的过去分词形式，如 "known"、"written"、"done" 等。

例如，在句子 "I have known him for years" 中，"known" 就具有这些特征：它是完成体（Aspect=Perf），表示过去的动作（Tense=Past），并且是分词形式（VerbForm=Part）。

这种详细的形态学分析对于理解句子的时态、体貌和语法结构非常有用，尤其是在进行复杂的语言分析任务时。

In [29]:
# 显示标记的词性
token2.pos_

'PROPN'

In [30]:
# 显示标记的依存关系
token2.dep_

'nsubj'

Q：输出解释

A：

当然，我很乐意解释这两个输出结果。

1. `token2.pos_` 的输出：
```
'PROPN'
```

这表示词性（Part of Speech）。`PROPN` 是 "Proper Noun"（专有名词）的缩写。

- 专有名词通常指特定的人、地点、组织或事物的名称。
- 在这个例子中，"States" 被识别为专有名词，因为它是 "United States" 的一部分，这是一个国家名称。

2. `token2.dep_` 的输出：
```
'nsubj'
```

这表示依存关系（Dependency Relation）。`nsubj` 是 "nominal subject"（名词性主语）的缩写。

- 名词性主语是句子的主语，通常是执行动作或被描述的对象。
- 在这个例子中，"States"（作为 "United States" 的一部分）被识别为句子的主语。

这两个属性一起提供了关于 "States" 在句子中的语法功能的重要信息：

- 它是一个专有名词（PROPN），这符合它作为国家名称一部分的身份。
- 它在句子中充当主语（nsubj），这意味着它是句子描述或讨论的主要对象。

例如，在句子 "The United States is a country" 中，"States"（作为 "The United States" 的一部分）就会有这样的标记：它是一个专有名词（PROPN），同时也是句子的主语（nsubj）。

这种详细的语法分析对于理解句子结构、进行语义分析和其他更复杂的自然语言处理任务非常有用。

In [31]:
# 显示标记的语言
token2.lang_

'en'

In [32]:
# 创建一个新的文本并处理
text = "Mike enjoys playing football."
doc2 = nlp(text)

In [33]:
# 显示新处理的文档
doc2

Mike enjoys playing football.

In [34]:
# 打印新文档中每个标记的文本、词性和依存关系
for token in doc2:
    print(token.text, token.pos_, token.dep_)

Mike PROPN nsubj
enjoys VERB ROOT
playing VERB xcomp
football NOUN dobj
. PUNCT punct


Q： 
ROOT
xcomp
dobj
punct
这些分别表示啥依存关系啊？

A：

这些是依存语法（Dependency Grammar）中的依存关系标签。让我为你解释每一个：

1. ROOT
   - 表示句子的根节点
   - 通常是主要谓语动词或句子的核心成分
   - 在依存树中，它不依赖于任何其他词

2. xcomp (Open Clausal Complement)
   - 表示开放性子句补语
   - 通常是一个动词或形容词短语，作为另一个动词的补语
   - 例如："She seems [to be happy]"，其中 "to be happy" 是 "seems" 的 xcomp

3. dobj (Direct Object)
   - 表示直接宾语
   - 是动词行为的直接接受者
   - 例如："He ate [an apple]"，其中 "an apple" 是 "ate" 的 dobj

4. punct (Punctuation)
   - 表示标点符号
   - 用于连接标点符号与句子的其他部分
   - 例如句号、逗号、问号等

这些依存关系标签帮助我们理解句子的语法结构和词与词之间的关系。它们在自然语言处理任务中非常有用，比如句法分析、信息提取和机器翻译等。

例句分析：
"John wants to eat an apple."

- ROOT: wants (主要谓语动词)
- nsubj: John (主语，依存于 wants)
- xcomp: eat (开放性子句补语，依存于 wants)
- dobj: apple (直接宾语，依存于 eat)
- punct: . (句号，依存于 wants)

这种分析帮助我们理解句子的结构和各个成分之间的关系。

In [None]:
# 使用 displacy 可视化依存关系
from spacy import displacy
displacy.render(doc2, style="dep")

In [39]:
# 打印文档中识别出的所有命名实体及其标签
for ent in doc.ents:
    print(ent.text, ent.label_)

The United States of America GPE
U.S.A. GPE
USA GPE
the United States GPE
U.S. GPE
US GPE
America GPE
North America LOC
50 CARDINAL
five CARDINAL
326 CARDINAL
Indian NORP
3.8 million square miles QUANTITY
9.8 million square kilometers QUANTITY
fourth ORDINAL
The United States GPE
Canada GPE
Mexico GPE
Bahamas GPE
Cuba GPE
more than 331 million CARDINAL
third ORDINAL
Washington GPE
D.C. GPE
New York GPE
Paleo-Indians NORP
Siberia LOC
North American NORP
at least 12,000 years ago DATE
European NORP
the 16th century DATE
The United States GPE
thirteen CARDINAL
British NORP
the East Coast LOC
Great Britain GPE
the American Revolutionary War ORG
the late 18th century DATE
U.S. GPE
North America LOC
Native Americans NORP
1848 DATE
the United States GPE
United States GPE
the second half of the 19th century DATE
the American Civil War ORG
Spanish NORP
World War EVENT
U.S. GPE
World War II EVENT
the Cold War EVENT
the United States GPE
the Korean War EVENT
the Vietnam War EVENT
the Soviet Union

In [40]:
# 使用 displacy 可视化命名实体识别结果
displacy.render(doc, style="ent")