# spacy
产业级自然语言处理python包  https://spacy.io/

## 特性
- 支持64+语言
- 针对19门语言的64流水线pipeline处理函数
- 多任务预训练transformers，如BERT
- 预训练词向量
- 支持命名实体识别
- 支持 POS词性标注
- 支持 句法依存
- 支持 文本分类
- 支持 词干化
- 内置可视化

## spacy安装

```
pip install spacy==3.2.0
```

## 模型

sm小型/ md中型/ lg大型

- **中文模型3.2.0版**  
   - zh_core_web_sm  https://github.com/explosion/spacy-models/releases/download/zh_core_web_sm-3.2.0/zh_core_web_sm-3.2.0-py3-none-any.whl
   - zh_core_web_md https://github.com/explosion/spacy-models/releases/download/zh_core_web_md-3.2.0/zh_core_web_md-3.2.0-py3-none-any.whl
   - zh_core_web_lg   https://github.com/explosion/spacy-models/releases/download/zh_core_web_lg-3.2.0/zh_core_web_lg-3.2.0-py3-none-any.whl


- **英文模型3.2.0版**
   - en_core_web_sm https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.2.0/en_core_web_sm-3.2.0-py3-none-any.whl
   - en_core_web_md  https://github.com/explosion/spacy-models/releases/download/en_core_web_md-3.2.0/en_core_web_md-3.2.0-py3-none-any.whl
   - en_core_web_lg  https://github.com/explosion/spacy-models/releases/download/en_core_web_lg-3.2.0/en_core_web_lg-3.2.0-py3-none-any.whl
   
   
注意： 模型大小的区别主要体现在词向量维度数的差距，模型越大， 词向量的维度越多。
   

## Doc类型
- ``doc.lang_``  doc的语言
- ``doc.text``   doc的文本
- ``doc.ents`` 文本中的实体词

In [127]:
import spacy

#使用中文zh_core_web_sm模型
zh_nlp = spacy.load("zh_core_web_sm")

test1 = '国家管网微信公众号11月13日消息，11月12日，国家管网集团首期绿色超短期融资券在全国银行间市场成功发行。此次债券发行是国家管网集团成立后首次在公开市场亮相，由工商银行独家承销，发行金额60亿元、期限270天，为本年度单笔最大金额绿色超短期融资券，募集资金将全部用于储气库等绿色低碳天然气储运基础设施建设；发行票面利率2.41%，认购总规模达2.53倍，低于资本市场同期可比产品利率超10个BP，反映了市场对绿色基础设施建设项目的青睐。'

doc1 = zh_nlp(test1)

doc1

国家管网微信公众号11月13日消息，11月12日，国家管网集团首期绿色超短期融资券在全国银行间市场成功发行。此次债券发行是国家管网集团成立后首次在公开市场亮相，由工商银行独家承销，发行金额60亿元、期限270天，为本年度单笔最大金额绿色超短期融资券，募集资金将全部用于储气库等绿色低碳天然气储运基础设施建设；发行票面利率2.41%，认购总规模达2.53倍，低于资本市场同期可比产品利率超10个BP，反映了市场对绿色基础设施建设项目的青睐。

In [128]:
doc1.lang_

'zh'

In [129]:
doc1.text

'国家管网微信公众号11月13日消息，11月12日，国家管网集团首期绿色超短期融资券在全国银行间市场成功发行。此次债券发行是国家管网集团成立后首次在公开市场亮相，由工商银行独家承销，发行金额60亿元、期限270天，为本年度单笔最大金额绿色超短期融资券，募集资金将全部用于储气库等绿色低碳天然气储运基础设施建设；发行票面利率2.41%，认购总规模达2.53倍，低于资本市场同期可比产品利率超10个BP，反映了市场对绿色基础设施建设项目的青睐。'

In [130]:
doc1.vector

array([-1.81135774e-01,  2.31929451e-01,  1.45746097e-01,  6.82696044e-01,
       -8.44623148e-03, -2.21295916e-02,  4.06811416e-01, -4.60287899e-01,
       -5.73987663e-01, -1.33687481e-01, -5.34314513e-01, -6.64901555e-01,
       -3.94947737e-01,  6.35875063e-03, -2.03339502e-01,  5.78875951e-02,
       -3.34325433e-01, -3.77648622e-01,  2.43863747e-01, -5.56892566e-02,
       -7.30801523e-01, -2.41785884e-01, -4.50579911e-01, -3.13598923e-02,
        9.07084942e-02, -8.06667805e-01,  7.28501499e-01, -8.59559357e-01,
       -4.44110222e-02,  9.64611948e-01, -2.57230818e-01,  1.09481342e-01,
       -3.73580456e-01, -8.51007993e-04,  5.30374162e-02, -5.51876485e-01,
       -4.82654065e-01,  2.68822908e-01, -4.20012563e-01,  4.33068752e-01,
       -5.14427841e-01,  5.53584039e-01, -2.00293139e-02,  9.45062563e-02,
        1.04523234e-01,  1.34134221e+00, -5.23905218e-01,  1.31230903e+00,
        3.28943968e-01,  3.39987069e-01,  8.26785386e-01,  5.35273492e-01,
       -4.27510649e-01, -

In [136]:
#doc1中的实体词
doc1.ents

(11月13日, 11月12日, 国家管网集团, 全国银行, 国家管网集团, 工商银行, 60亿元, 270天, 2, 2, 53, 超10)

In [137]:
#doc1中的实体词类别
[ent.label_ for ent in doc1.ents]

['DATE',
 'DATE',
 'ORG',
 'ORG',
 'ORG',
 'ORG',
 'MONEY',
 'DATE',
 'CARDINAL',
 'CARDINAL',
 'CARDINAL',
 'CARDINAL']

## Token类型
- ``token.text``   文本
- ``token.pos_``  词性

In [138]:
for token in doc1:
    print(token.text, ' ', token.pos_)

国家   NOUN
管网   NOUN
微信   ADJ
公众号   NOUN
11月   NOUN
13日   NOUN
消息   NOUN
，   PUNCT
11月   NOUN
12日   NOUN
，   PUNCT
国家   NOUN
管网   NOUN
集团   NOUN
首期   ADV
绿色   VERB
超短   NOUN
期融   NOUN
资券   VERB
在   ADP
全国   ADJ
银行   NOUN
间   PART
市场   NOUN
成功   ADV
发行   VERB
。   PUNCT
此次   DET
债券   NOUN
发行   VERB
是   VERB
国家   NOUN
管网   NOUN
集团   NOUN
成立   VERB
后   PART
首次   ADV
在   ADP
公开   ADJ
市场   NOUN
亮相   VERB
，   PUNCT
由   ADP
工商   NOUN
银行   NOUN
独家   ADV
承销   VERB
，   PUNCT
发行   NOUN
金额   NOUN
60亿   NUM
元   NUM
、   PUNCT
期限   NOUN
270   NUM
天   NUM
，   PUNCT
为   ADP
本   DET
年度   NOUN
单笔   NOUN
最   ADV
大   ADJ
金额   NOUN
绿色   ADJ
超短   NOUN
期融   NOUN
资券   NOUN
，   PUNCT
募集   NOUN
资金   NOUN
将   ADV
全部   ADV
用于   VERB
储气库   NOUN
等   PART
绿色   ADJ
低碳   VERB
天然气   NOUN
储运   NOUN
基础   NOUN
设施   NOUN
建设   NOUN
；   PUNCT
发行   VERB
票面   ADJ
利率   NOUN
2   NUM
.   PUNCT
41%   NOUN
，   PUNCT
认购   NOUN
总   ADJ
规模   NOUN
达   VERB
2   NUM
.   PUNCT
53   NUM
倍   NUM
，   PUNCT
低于   VERB
资本   NOUN
市场   NOUN
同期   NOU

## python网络爬虫与文本分析 

课程链接https://m.qlchat.com/wechat/page/channel-intro?channelId=2000015158133596

每邀请一位学员，返现150元。