# Spacy Tutorial for NLP

In [None]:
## NLP foundations


### Usual NLP tasks

- tokenization：分词
- 
- post-of-speech：词性标注
- named entity recognition: 命名实体识别

## General pipeline in Spacy
使用spaCy时，文本字符串的第一步是将其传递给NLP对象。这个对象本质上是由几个文本预处理操作组成的管道，输入文本字符串必须通过这些操作。

![](https://img2020.cnblogs.com/other/1981858/202009/1981858-20200919132225169-1952649643.jpg)


**Spacy 内统计模型**

- `en_core_web_sm`：英语多任务CNN，在OntoNotes上训练，大小为11 MB

- `en_core_web_md`：英语多任务CNN，在OntoNotes上训练，并且使用Common Crawl上训练的GLoVe词嵌入，大小为91 MB

- `en_core_web_lg`：英语多任务CNN，在OntoNotes上训练，并且使用Common Crawl上训练的GLoVe词嵌入，大小为789 MB




**相应的组件 in Spacy**：

- 标记生成器
- 标签器
- 生成器
- 解析器
- NER



In [None]:
#

**Example**

1. 导入统计模型，创建 NLP 对象

In [1]:
import spacy
sm_nlp = spacy.load('en_core_web_sm')
md_nlp = spacy.load('en_core_web_md')
lg_nlp = spacy.load('en_core_web_lg')

print(sm_nlp.pipe_names)
print(md_nlp.pipe_names)
print(lg_nlp.pipe_names)


['tagger', 'parser', 'ner']
['tagger', 'parser', 'ner']
['tagger', 'parser', 'ner']


2. 基本的分词操作、数据类型

In [32]:
string = 'Dr. Jennifer Smith visited China. She liked the country a lot.'
doc = md_nlp(string)
print('document object 长度：', len(doc))
print(type(doc[0]),'\t', [t for t in doc])
print(doc)
print(type(doc))

document object 长度： 13
<class 'spacy.tokens.token.Token'> 	 [Dr., Jennifer, Smith, visited, China, ., She, liked, the, country, a, lot, .]
Dr. Jennifer Smith visited China. She liked the country a lot.
<class 'spacy.tokens.doc.Doc'>


In [30]:
type(doc[0])

spacy.tokens.token.Token

In [16]:
# sentences
print(type(doc.sents))
print(type(next(doc.sents)))
[sent.text for sent in doc.sents]

<class 'generator'>
<class 'spacy.tokens.span.Span'>


['Dr. Jennifer Smith visited China.', 'She liked the country a lot.']

In [23]:
# tokens
sents = list(doc.sents) # convert `generator` to `list` type
tokens = sents[0] # 第一个句子中的 tokens
type(tokens[0])

spacy.tokens.token.Token

In [26]:
token_lemma = [[token.text, token.lemma_] for token in tokens]
token_lemma

[['Dr.', 'Dr.'],
 ['Jennifer', 'Jennifer'],
 ['Smith', 'Smith'],
 ['visited', 'visit'],
 ['China', 'China'],
 ['.', '.']]

In [None]:
print([[token.text for token in sent] for sent in doc.sents])
# Print a table of tokens and their lemmas
print(table([[token.text, token.lemma_] for token in doc]))

# Print sample embedding vectors
visited = doc[3]
china = doc[5]
country = doc[10]

print(visited.vector)

3. 词嵌入向量

In [41]:
print(doc.vector.shape)
print(doc[0].vector.shape)


(300,)
(300,)


In [44]:
# Print sample embedding vectors
visited = doc[3]
china = doc[5]
country = doc[10]

sim = china.similarity
print("similarity(china, visited): " + str(sim(visited)))
print("similarity(china, country): " + str(sim(country)))
print("similarity(china, India): " + str(sim(md_nlp("India")[0])))

similarity(china, visited): 0.16252194
similarity(china, country): 0.29160026
similarity(china, India): 0.20743968


4. 命名实体 & 标签


In [62]:
print([(ent.text, ent.label_) for ent in doc.ents]) # 每一个 ent 是一个 Span 数据类型，包含一个或多个 token
print(type(doc.ents), type(doc.ents[0]))

[('Jennifer Smith', 'PERSON'), ('China', 'GPE')]
<class 'tuple'> <class 'spacy.tokens.span.Span'>


4. little summary
   - 首先创建 nlp 模型: `nlp = spacy.load(<model name>)`
   - 生成 NLP 对象：`doc = nlp(<str obj>)` 生成的是 `spacy.tokens.Doc` 类型的对象；`doc` 可索引，`doc[i]` 是 `spacy.tokens.Token` 类型；`doc` 长度为得到的分词个数
   - Sentences：`doc.sents` 是对众多 tokens 的组装，是为 python 生成器，每一个元素是 `spacy.tokens.Span` 类型
   - Entities：`doc.ents` 是 python 元组，每一个元素是 `spacy.tokens.Span` 类型，因为 entity 由一个或多个 token 组成，元素的 `.label_` 属性表示实体标签
   - Other：词性标注使用 `token.pos_` 属性，单词原形使用 `token.lemma_`，语法依存分析使用 `token.dep_`，

In [76]:
spacy.explain('AUX')

'auxiliary'

## Reference

- [Spacy 学习教程](https://www.cnblogs.com/panchuangai/p/13695902.html)