# 教程

* https://course.spacy.io/en/
* https://course.spacy.io/zh

# spaCy 介绍

In [10]:
import spacy

## nlp 对象

* 包含了自然语言处理的流程
* 包括了分词等任务的特定语言的规则

In [11]:
# 创建一个空白的中文 nlp 对象
nlp = spacy.blank("zh")

## Doc 对象

In [12]:
# 使用 nlp 对象处理一段文本生成 doc 实例
doc = nlp("这是一个句子。")

# 遍历 doc 实例中的词符
for token in doc:
    print(token.text)

这
是
一
个
句
子
。


## Token 对象

In [13]:
# 使用 Doc 索引读取单个词符
token = doc[1]

# 使用 .text 属性读取词符的文本
print(token.text)

是


## Span 对象

In [14]:
# 截取 Doc 的一部分就成了 Span 实例
span = doc[1:3]

# 使用 .text 属性获取 span 的文本
print(span.text)

是一


## 词汇的属性

In [18]:
doc = nlp("这个肉夹馍花了￥5。")

print(f"Index: {[token.i for token in doc]}")
print(f"Text : {[token.text for token in doc]}")
print(f"is_alpha: {[token.is_alpha for token in doc]}")
print(f"is punct: {[token.is_punct for token in doc]}")
print(f"like_num: {[token.like_num for token in doc]}")

Index: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
Text : ['这', '个', '肉', '夹', '馍', '花', '了', '￥', '5', '。']
is_alpha: [True, True, True, True, True, True, True, False, False, False]
is punct: [False, False, False, False, False, False, False, False, False, True]
like_num: [False, False, False, False, False, False, False, False, True, False]


# 训练流程

训练流程是使 spaCy 可以从语境(context)中抽取到的语言学属性的模型，
训练好的流程组件所包含的统计模型让 spaCy 可以通过语境来来做抽取。抽取结果通常包括了：

* 词性标注
* 依存关系解析
* 命名实体识别

流程是由大量标注过的文本例子训练而成。流程可以输入更多的标注数据来优化结果，常见的应用是用特定数据优化用户需要的特定场景。

## 流程包

* spaCy 提供了很多训练好的流程包，可以用 `spacy download` 命令来下载。
  比如 `"zh_core_web_sm"` 这个流程包就是一个小的中文模型，它有所有核心功能，是从网上的文本训练而来。
* `spacy.load` 方法可以通过包名读取一个流程包并返回一个 `nlp` 实例。
* 模型包含有二进制权重，spaCy 用这些权重可以做出模型预测实现信息抽取。
* 模型包也含有词汇表以及关于流程和训练配置文件的元信息，配置了 spaCy 的语言类以及相应的处理流程组件。

In [21]:
import spacy
import zh_core_web_sm, en_core_web_sm

nlp = spacy.load("zh_core_web_sm")
doc = nlp("这是一个用于示例的句子。")
for token in doc:
    print(f"token.text: {token.text}")
    print(f"token.pos_: {token.pos_}")
    print(f"token.dep_: {token.dep_}")
    print()


nlp = zh_core_web_sm.load()
doc = nlp("这是一个用于示例的句子。")
for token in doc:
    print(f"token.text: {token.text}")
    print(f"token.pos_: {token.pos_}")
    print(f"token.dep_: {token.dep_}")
    print()


nlp = spacy.load("en_core_web_sm")
doc = nlp("This is a sentence.")
for token in doc:
    print(f"token.text: {token.text}")
    print(f"token.pos_: {token.pos_}")
    print(f"token.dep_: {token.dep_}")
    print()


nlp = en_core_web_sm.load()
doc = nlp("This is a sentence.")
for token in doc:
    print(f"token.text: {token.text}")
    print(f"token.pos_: {token.pos_}")
    print(f"token.dep_: {token.dep_}")

token.text: 这是
token.pos_: VERB
token.dep_: cop

token.text: 一个
token.pos_: NUM
token.dep_: dep

token.text: 用于
token.pos_: VERB
token.dep_: acl

token.text: 示例
token.pos_: NOUN
token.dep_: dobj

token.text: 的
token.pos_: PART
token.dep_: mark

token.text: 句子
token.pos_: NOUN
token.dep_: ROOT

token.text: 。
token.pos_: PUNCT
token.dep_: punct

token.text: 这是
token.pos_: VERB
token.dep_: cop

token.text: 一个
token.pos_: NUM
token.dep_: dep

token.text: 用于
token.pos_: VERB
token.dep_: acl

token.text: 示例
token.pos_: NOUN
token.dep_: dobj

token.text: 的
token.pos_: PART
token.dep_: mark

token.text: 句子
token.pos_: NOUN
token.dep_: ROOT

token.text: 。
token.pos_: PUNCT
token.dep_: punct

token.text: This
token.pos_: PRON
token.dep_: nsubj

token.text: is
token.pos_: AUX
token.dep_: ROOT

token.text: a
token.pos_: DET
token.dep_: det

token.text: sentence
token.pos_: NOUN
token.dep_: attr

token.text: .
token.pos_: PUNCT
token.dep_: punct

token.text: This
token.pos_: PRON
token.dep_: nsubj


## 词性标注

In [36]:
# 读取小版本的中文流程
nlp = spacy.load("zh_core_web_sm")
# 处理文本
doc = nlp("我吃了个肉夹馍")
# 遍历 token
for token in doc:
    # print the text and the predicted part-of-speech tag
    print(f"Text: {token.text} \tPOS(part-of-speech tag): {token.pos_}({spacy.explain(token.pos_)})")

Text: 我 	POS(part-of-speech tag): PRON(pronoun)
Text: 吃 	POS(part-of-speech tag): VERB(verb)
Text: 了 	POS(part-of-speech tag): PART(particle)
Text: 个 	POS(part-of-speech tag): NUM(numeral)
Text: 肉夹馍 	POS(part-of-speech tag): NOUN(noun)


## 依存关系解析

In [39]:
for token in doc:
    print(f"{token.text} \t{token.pos_}({spacy.explain(token.pos_)}) \t{token.dep_}({spacy.explain(token.dep_)}) \t{token.head.text}")

我 	PRON(pronoun) 	nsubj(nominal subject) 	吃
吃 	VERB(verb) 	ROOT(root) 	吃
了 	PART(particle) 	aux:asp(None) 	吃
个 	NUM(numeral) 	nummod(numeric modifier) 	肉夹馍
肉夹馍 	NOUN(noun) 	dobj(direct object) 	吃


## 命名实体识别

In [33]:
# 处理文本
doc = nlp("微软准备用十亿美金买下这家英国的创业公司。")
# 遍历识别出的实体
for ent in doc.ents:
    # 打印实体文本及其标注
    print(f"text: {ent.text} \tentity: {ent.label_} \t{spacy.explain(ent.label_)}")

text: 微软 	entity: ORG 	Companies, agencies, institutions, etc.
text: 十亿美金 	entity: MONEY 	Monetary values, including unit
text: 英国 	entity: GPE 	Countries, cities, states


In [30]:
# 快速获得大部分常见的标注和标签定义
print(spacy.explain("GPE"))
print(spacy.explain("NNP"))
print(spacy.explain("dobj"))

Countries, cities, states
noun, proper singular
direct object


# 基于规则的匹配

spaCy 的 `matcher`， 用它来写一些规则来寻找文本中的目标词汇和短语

与正则表达式相比，`matcher` 是配合 Doc 和 Token 这样的方法来使用的，而不是只作用于字符串上。
同时 `matcher` 使用上也更加灵活：我们不只可以搜索文本，也可以搜索其它的词法属性。
我们甚至可以直接调用模型的预测结果来写规则。比如，寻找那些是动词而不是名词的 `"duck"` 词汇。

## 模板匹配

一个元素是字典的列表，一个词符是一个元素

* 匹配词符的完全一致的文字

```
[{"TEXT": "iPhone"}, {"TEXT": "X"}]
```

* 匹配词汇的属性

```
[{"LOWER": "iphone"}, {"LOWER": "x"}]
```

* 匹配任意的词符属性

```
[{"LEMMA": "buy"}, {"POS": "NOUN"}]
```

### 匹配词汇属性

In [65]:
import spacy
# 导入 Matcher
from spacy.matcher import Matcher

# 读取一个流程，创建 nlp 实例
nlp = spacy.load("zh_core_web_sm")

# 用模板分享出的 vocab 初始化 matcher
matcher = Matcher(nlp.vocab)

# 给 matcher 加入模板
pattern = [{"TEXT": "iPhone"}, {"TEXT": "X"}]
matcher.add("IPHONE_PATTERN", [pattern])

# 处理文本
doc = nlp("即将上市的iPhone X发布日期被泄露了")

# 在 doc 上面调用 matcher
matches = matcher(doc)

# 遍历所有的匹配结果
for match_id, start, end in matches:
    # 获取匹配的跨度
    matched_span = doc[start:end]
    # print(match_id, start, end)
    print(f"matched span: {matched_span.text}")

matched span: iPhone X


### 匹配其它的词符属性

In [66]:
import spacy
# 导入 Matcher
from spacy.matcher import Matcher

# 读取一个流程，创建 nlp 实例
nlp = spacy.load("zh_core_web_sm")

# 用模板分享出的 vocab 初始化 matcher
matcher = Matcher(nlp.vocab)

# 给 matcher 加入模板
pattern = [
    {"IS_DIGIT": True},
    {"LOWER": "国际"},
    {"LOWER": "足联"},
    {"LOWER": "世界杯"},
    {"IS_PUNCT": True}
]
matcher.add("PATTERN", [pattern])

# 处理文本
doc = nlp("2018国际足联世界杯：法国队赢了！")

# 在 doc 上面调用 matcher
matches = matcher(doc)

# 遍历所有的匹配结果
for match_id, start, end in matches:
    # 获取匹配的跨度
    matched_span = doc[start:end]
    # print(match_id, start, end)
    print(f"matched span: {matched_span.text}")

matched span: 2018国际足联世界杯：


### 使用运算符和量词

In [71]:
import spacy
# 导入 Matcher
from spacy.matcher import Matcher

# 读取一个流程，创建 nlp 实例
nlp = spacy.load("zh_core_web_sm")

# 用模板分享出的 vocab 初始化 matcher
matcher = Matcher(nlp.vocab)

# 给 matcher 加入模板
pattern = [
    # TODO {"LEMMA": "买"},
    {"POS": "NUM", "OP": "?"},  # 可选: 匹配0次或者1次
    {"POS": "NOUN"}
]
matcher.add("PATTERN", [pattern])

# 处理文本
doc = nlp("我买个肉夹馍。我还要买凉皮。")

# 在 doc 上面调用 matcher
matches = matcher(doc)

# 遍历所有的匹配结果
for match_id, start, end in matches:
    # 获取匹配的跨度
    matched_span = doc[start:end]
    # print(match_id, start, end)
    print(f"matched span: {matched_span.text}")

matched span: 个肉夹馍
matched span: 肉夹馍
matched span: 凉皮


### 其他

In [70]:
import spacy
from spacy.matcher import Matcher

nlp = spacy.load("zh_core_web_sm")
matcher = Matcher(nlp.vocab)

doc = nlp(
    "升级iOS之后，我们并没有发现系统设计有很大的不同，远没有当年iOS 7发布时带来的"
    "焕然一新的感觉。大部分iOS 11的设计与iOS 10保持一致。但我们仔细试用后也发现了一些"
    "小的改进。"
)

# 写一个模板来匹配完整的iOS版本 ("iOS 7", "iOS 11", "iOS 10")
pattern = [{"TEXT": "iOS"}, {"IS_DIGIT": True}]

# 把模板加入到matcher中，将matcher应用到doc上面
matcher.add("IOS_VERSION_PATTERN", [pattern])
matches = matcher(doc)
print("Total matches found:", len(matches))

# 遍历所有的匹配，然后打印span的文本
for match_id, start, end in matches:
    print("Match found:", doc[start:end].text)

Total matches found: 3
Match found: iOS 7
Match found: iOS 11
Match found: iOS 10


In [69]:
import spacy
from spacy.matcher import Matcher

nlp = spacy.load("zh_core_web_sm")
matcher = Matcher(nlp.vocab)

doc = nlp(
    "我之前有去下载Dota到电脑上面，但是根本打不开游戏，怎么办？"
    "我下载Minecraft，是Windows的版本，下载后是一个'.zip'的文件夹，然后我用了默认软件做了"
    "解压...我是不是还需要去下载Winzip？"
)

# 写一个模板来匹配"下载"加一个代词
pattern = [{"TEXT": "下载"}, {"POS": "PROPN"}]

# 把模板加入到matcher中，然后把matcher应用到doc上面
matcher.add("DOWNLOAD_THINGS_PATTERN", [pattern])
matches = matcher(doc)
print("Total matches found:", len(matches))

# 遍历所有的匹配，打印span的文本
for match_id, start, end in matches:
    print("Match found:", doc[start:end].text)

Total matches found: 1
Match found: 下载Winzip


In [68]:
import spacy
from spacy.matcher import Matcher

nlp = spacy.load("zh_core_web_sm")
matcher = Matcher(nlp.vocab)

doc = nlp(
    "这个app的特性包括了优雅设计、快捷搜索、自动标签以及可选声音。"
)

# 写一个模板是形容词加上一个或者两个名词
pattern = [{"POS": "ADJ"}, {"POS": "NOUN"}, {"POS": "NOUN", "OP": "?"}]

# 把模板加入到matcher中然后把matcher应用到doc上面
matcher.add("ADJ_NOUN_PATTERN", [pattern])
matches = matcher(doc)
print("Total matches found:", len(matches))

# 遍历所有的匹配，打印span的文本
for match_id, start, end in matches:
    print("Match found:", doc[start:end].text)

Total matches found: 4
Match found: 优雅设计
Match found: 快捷搜索
Match found: 自动标签
Match found: 可选声音


# spaCy 数据分析

## 数据结构

### 共享词汇表和字符串库 

In [72]:
import spacy
from spacy.matcher import Matcher

nlp = spacy.load("zh_core_web_sm")

nlp.vocab.strings.add("咖啡")
coffee_hash = nlp.vocab.strings["咖啡"]
coffee_string = nlp.vocab.strings[coffee_hash]
print(coffee_hash)
print(coffee_string)

7962530705879205333
咖啡


In [2]:
import spacy
from spacy.matcher import Matcher

nlp = spacy.load("zh_core_web_sm")

doc = nlp("我爱喝咖啡。")

coffee_hash = nlp.vocab.strings["咖啡"]
coffee_string = nlp.vocab.strings[coffee_hash]
print(coffee_hash)
print(coffee_string)
coffee_hash = doc.vocab.strings["咖啡"]
coffee_string = doc.vocab.strings[coffee_hash]
print(coffee_hash)
print(coffee_string)

7962530705879205333
咖啡
7962530705879205333
咖啡
