# **spaCy可以自己训练模型**

## **实体训练** ##

**虽然 NLTK 提供了对许多算法的访问来完成某件事，但 spaCy 提供了最好的方法。 它为迄今为止发布的任何 NLP 库提供最快、最准确的句法分析。 它还提供对更易于定制的较大词向量的访问。**

**命名实体识别 (NER) 是自动识别文本中讨论的实体并将它们分类为预定义类别的过程，例如“人”、“组织”、“位置”等。 spaCy 库允许您通过更新现有的 spacy 模型以适应文本文档的特定上下文以及从头开始训练新的 NER 模型来训练 NER 模型。**

In [2]:
from __future__ import unicode_literals, print_function
import plac
import random
from pathlib import Path
import spacy
from spacy import displacy

from tqdm import tqdm
import zh_core_web_sm

In [3]:
TRAIN_DATA = [
    ('Azure因为即使超级英雄般的开发人员也需要搭档', {
        'entities': [(0, 5, 'MicrosoftAzure')]
    }),
     ('开始使用Azure产品和服务将你的想法付诸行动', {
        'entities': [(4, 9, 'MicrosoftAzure')]
    }),
    ('利用Azure打破限制', {
        'entities': [(3, 8, 'MicrosoftAzure')]
    }),
    ('Azure好处', {
        'entities': [(0, 5, 'MicrosoftAzure')]
    }),
    ('机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。', {
        'entities': [(0, 5, 'MachineLearning')]
    }),
     ('现已成为机器学习领域里最为重要的发展方向之一', {
        'entities': [(4, 8, 'MachineLearning')]
    }),
    ('在机器学习上的专利布局主要聚焦于图像处理、位置信息、视频帧、人脸图像、生成模型等专业技术领域', {
        'entities': [(1, 5, 'MachineLearning')]
    })
]

In [4]:
nlp = zh_core_web_sm.load()  

In [5]:
nlp.pipe_names

['tagger', 'parser', 'ner']

In [6]:
ner = nlp.get_pipe('ner')

In [7]:
for _, annotations in TRAIN_DATA:
    for ent in annotations.get('entities'):
        ner.add_label(ent[2])

n_iter=100

other_pipes = [pipe for pipe in nlp.pipe_names if pipe != 'ner']
with nlp.disable_pipes(*other_pipes):  # only train NER
    optimizer = nlp.begin_training()
    for itn in range(n_iter):
        random.shuffle(TRAIN_DATA)
        losses = {}
        for text, annotations in tqdm(TRAIN_DATA):
            nlp.update(
                [text],  
                [annotations],  
                drop=0.5,  
                sgd=optimizer,
                losses=losses)
        print(losses)

  0%|          | 0/7 [00:00<?, ?it/s]Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\kinfeylo\AppData\Local\Temp\jieba.cache
Loading model cost 0.519 seconds.
Prefix dict has been built successfully.
100%|██████████| 7/7 [00:00<00:00,  7.51it/s]


{'ner': 88.55623959278626}


100%|██████████| 7/7 [00:00<00:00, 17.35it/s]


{'ner': 69.15995130478404}


100%|██████████| 7/7 [00:00<00:00, 17.43it/s]


{'ner': 71.7078189542517}


100%|██████████| 7/7 [00:00<00:00, 17.42it/s]


{'ner': 72.39952572993934}


100%|██████████| 7/7 [00:00<00:00, 17.51it/s]


{'ner': 66.70221730857156}


100%|██████████| 7/7 [00:00<00:00, 17.26it/s]


{'ner': 73.05261127058475}


100%|██████████| 7/7 [00:00<00:00, 17.48it/s]


{'ner': 72.86903484963113}


100%|██████████| 7/7 [00:00<00:00, 17.33it/s]


{'ner': 74.61417748685926}


100%|██████████| 7/7 [00:00<00:00, 17.28it/s]


{'ner': 69.39729756029556}


100%|██████████| 7/7 [00:00<00:00, 17.51it/s]


{'ner': 75.46562055498362}


100%|██████████| 7/7 [00:00<00:00, 17.48it/s]


{'ner': 68.2240765588358}


100%|██████████| 7/7 [00:00<00:00, 17.61it/s]


{'ner': 66.39334602374583}


100%|██████████| 7/7 [00:00<00:00, 17.43it/s]


{'ner': 66.3781146146357}


100%|██████████| 7/7 [00:00<00:00, 17.36it/s]


{'ner': 76.18413234967738}


100%|██████████| 7/7 [00:00<00:00, 17.41it/s]


{'ner': 67.89993572281674}


100%|██████████| 7/7 [00:00<00:00, 17.40it/s]


{'ner': 72.53648485071608}


100%|██████████| 7/7 [00:00<00:00, 17.22it/s]


{'ner': 63.25748456886504}


100%|██████████| 7/7 [00:00<00:00, 17.25it/s]


{'ner': 59.640455696964636}


100%|██████████| 7/7 [00:00<00:00, 17.32it/s]


{'ner': 67.21376272430643}


100%|██████████| 7/7 [00:00<00:00, 17.49it/s]


{'ner': 60.324499360935306}


100%|██████████| 7/7 [00:00<00:00, 17.39it/s]


{'ner': 77.5920566209661}


100%|██████████| 7/7 [00:00<00:00, 17.03it/s]


{'ner': 67.50922330166806}


100%|██████████| 7/7 [00:00<00:00, 16.52it/s]


{'ner': 68.62945436721202}


100%|██████████| 7/7 [00:00<00:00, 16.71it/s]


{'ner': 68.26408635498956}


100%|██████████| 7/7 [00:00<00:00, 16.49it/s]


{'ner': 69.53731467598118}


100%|██████████| 7/7 [00:00<00:00, 16.73it/s]


{'ner': 67.45312087005004}


100%|██████████| 7/7 [00:00<00:00, 16.49it/s]


{'ner': 65.79852221241526}


100%|██████████| 7/7 [00:00<00:00, 16.54it/s]


{'ner': 67.71812726571625}


100%|██████████| 7/7 [00:00<00:00, 16.89it/s]


{'ner': 68.84006180974211}


100%|██████████| 7/7 [00:00<00:00, 17.77it/s]


{'ner': 68.16274349362357}


100%|██████████| 7/7 [00:00<00:00, 17.45it/s]


{'ner': 68.12204250218929}


100%|██████████| 7/7 [00:00<00:00, 17.93it/s]


{'ner': 69.83590519956579}


100%|██████████| 7/7 [00:00<00:00, 17.55it/s]


{'ner': 69.52411936205748}


100%|██████████| 7/7 [00:00<00:00, 18.06it/s]


{'ner': 72.1227676984854}


100%|██████████| 7/7 [00:00<00:00, 18.03it/s]


{'ner': 69.00178468390368}


100%|██████████| 7/7 [00:00<00:00, 17.84it/s]


{'ner': 61.465223854305805}


100%|██████████| 7/7 [00:00<00:00, 16.72it/s]


{'ner': 67.0426831274735}


100%|██████████| 7/7 [00:00<00:00, 16.91it/s]


{'ner': 67.48509230216587}


100%|██████████| 7/7 [00:00<00:00, 16.93it/s]


{'ner': 67.38022407744484}


100%|██████████| 7/7 [00:00<00:00, 16.91it/s]


{'ner': 62.23931321545851}


100%|██████████| 7/7 [00:00<00:00, 16.83it/s]


{'ner': 70.73858526498043}


100%|██████████| 7/7 [00:00<00:00, 16.24it/s]


{'ner': 67.99859462404856}


100%|██████████| 7/7 [00:00<00:00, 17.23it/s]


{'ner': 69.71125107146895}


100%|██████████| 7/7 [00:00<00:00, 16.51it/s]


{'ner': 70.57669449722744}


100%|██████████| 7/7 [00:00<00:00, 17.60it/s]


{'ner': 67.70058338833041}


100%|██████████| 7/7 [00:00<00:00, 17.48it/s]


{'ner': 73.3539145886898}


100%|██████████| 7/7 [00:00<00:00, 17.35it/s]


{'ner': 67.25617240811698}


100%|██████████| 7/7 [00:00<00:00, 17.59it/s]


{'ner': 65.00567885860801}


100%|██████████| 7/7 [00:00<00:00, 17.59it/s]


{'ner': 58.22887910083955}


100%|██████████| 7/7 [00:00<00:00, 17.45it/s]


{'ner': 74.08091578379663}


100%|██████████| 7/7 [00:00<00:00, 16.22it/s]


{'ner': 67.79037870606408}


100%|██████████| 7/7 [00:00<00:00, 16.45it/s]


{'ner': 68.49019408756472}


100%|██████████| 7/7 [00:00<00:00, 16.09it/s]


{'ner': 68.74533488095767}


100%|██████████| 7/7 [00:00<00:00, 16.82it/s]


{'ner': 59.19904063261055}


100%|██████████| 7/7 [00:00<00:00, 17.63it/s]


{'ner': 69.25671134887169}


100%|██████████| 7/7 [00:00<00:00, 17.44it/s]


{'ner': 70.3994761351496}


100%|██████████| 7/7 [00:00<00:00, 17.56it/s]


{'ner': 65.82506303369541}


100%|██████████| 7/7 [00:00<00:00, 17.73it/s]


{'ner': 64.57004616962308}


100%|██████████| 7/7 [00:00<00:00, 16.41it/s]


{'ner': 70.19378702482209}


100%|██████████| 7/7 [00:00<00:00, 17.21it/s]


{'ner': 74.69052042736439}


100%|██████████| 7/7 [00:00<00:00, 17.07it/s]


{'ner': 64.72550914690471}


100%|██████████| 7/7 [00:00<00:00, 17.16it/s]


{'ner': 63.98614677682053}


100%|██████████| 7/7 [00:00<00:00, 17.59it/s]


{'ner': 70.25237037113439}


100%|██████████| 7/7 [00:00<00:00, 17.72it/s]


{'ner': 67.89008776750416}


100%|██████████| 7/7 [00:00<00:00, 17.59it/s]


{'ner': 68.62007940752198}


100%|██████████| 7/7 [00:00<00:00, 17.40it/s]


{'ner': 65.53391522357155}


100%|██████████| 7/7 [00:00<00:00, 16.81it/s]


{'ner': 67.65024240981084}


100%|██████████| 7/7 [00:00<00:00, 17.48it/s]


{'ner': 68.33479708904633}


100%|██████████| 7/7 [00:00<00:00, 17.16it/s]


{'ner': 64.31370332093138}


100%|██████████| 7/7 [00:00<00:00, 17.54it/s]


{'ner': 68.99759635400255}


100%|██████████| 7/7 [00:00<00:00, 17.54it/s]


{'ner': 67.388890890933}


100%|██████████| 7/7 [00:00<00:00, 17.35it/s]


{'ner': 71.31665840011556}


100%|██████████| 7/7 [00:00<00:00, 17.06it/s]


{'ner': 71.45469857752323}


100%|██████████| 7/7 [00:00<00:00, 17.38it/s]


{'ner': 66.21089613876757}


100%|██████████| 7/7 [00:00<00:00, 17.01it/s]


{'ner': 66.7742991782335}


100%|██████████| 7/7 [00:00<00:00, 16.22it/s]


{'ner': 70.36546586151235}


100%|██████████| 7/7 [00:00<00:00, 17.16it/s]


{'ner': 62.497150021293464}


100%|██████████| 7/7 [00:00<00:00, 17.20it/s]


{'ner': 70.33422500354936}


100%|██████████| 7/7 [00:00<00:00, 17.41it/s]


{'ner': 61.135407813755066}


100%|██████████| 7/7 [00:00<00:00, 17.51it/s]


{'ner': 80.8323437508561}


100%|██████████| 7/7 [00:00<00:00, 17.57it/s]


{'ner': 69.3858350077644}


100%|██████████| 7/7 [00:00<00:00, 17.56it/s]


{'ner': 69.5236373138614}


100%|██████████| 7/7 [00:00<00:00, 17.51it/s]


{'ner': 68.19308916045156}


100%|██████████| 7/7 [00:00<00:00, 16.85it/s]


{'ner': 64.56668545422144}


100%|██████████| 7/7 [00:00<00:00, 16.80it/s]


{'ner': 63.660891166462534}


100%|██████████| 7/7 [00:00<00:00, 16.85it/s]


{'ner': 70.27928657626762}


100%|██████████| 7/7 [00:00<00:00, 17.26it/s]


{'ner': 61.42331577132802}


100%|██████████| 7/7 [00:00<00:00, 17.15it/s]


{'ner': 65.10195870738244}


100%|██████████| 7/7 [00:00<00:00, 17.03it/s]


{'ner': 65.70145178110033}


100%|██████████| 7/7 [00:00<00:00, 17.27it/s]


{'ner': 64.47408954775233}


100%|██████████| 7/7 [00:00<00:00, 17.26it/s]


{'ner': 58.90845112695983}


100%|██████████| 7/7 [00:00<00:00, 17.23it/s]


{'ner': 60.463864968962305}


100%|██████████| 7/7 [00:00<00:00, 17.03it/s]


{'ner': 63.94272614285944}


100%|██████████| 7/7 [00:00<00:00, 16.80it/s]


{'ner': 63.994870555124244}


100%|██████████| 7/7 [00:00<00:00, 16.74it/s]


{'ner': 66.13170483904253}


100%|██████████| 7/7 [00:00<00:00, 16.14it/s]


{'ner': 63.3496629600794}


100%|██████████| 7/7 [00:00<00:00, 16.26it/s]


{'ner': 64.21229771903886}


100%|██████████| 7/7 [00:00<00:00, 16.44it/s]


{'ner': 68.44236477290178}


100%|██████████| 7/7 [00:00<00:00, 16.41it/s]


{'ner': 67.71506939196794}


100%|██████████| 7/7 [00:00<00:00, 16.37it/s]

{'ner': 67.66482525204145}





In [8]:
for text, _ in TRAIN_DATA:
    doc = nlp("哦哦今天我想给各位同学来介绍一下Azure机器学习的一个部分。那如果大家呢，呃，有看上面的小视频呢？大家会知道，Azure上面呢，有非常呃，强大的一些机器学习的一些功能啊啊。我们，呃，之前呢就介绍过一个零代码的方式去做。呃，一个计算机视觉的任务，那接下来呢？我想给大家更专业的部分，大家知道我们做机器学习的时候呢，会遇到一个状况，就是，呃，我们可能没有GPU。或者是没有一些机器学习的平台，还有搭建环境的时候非常不方便。但是如果你通过Azure了，可以很快速的去完成相关的工作，你可以不需要关注你的整个。呃，平台的一些搭建情况啊啊，安装啊，配置文件之类的就可以启动你的Azure的一些机器学习上面的一些服务，包括说logo，包括说Python的环境，还有就是一些GPU的一些算力的一些呃，使用在这里面的话呢，我想给大家介绍一下。Azure的整个，呃，机器学习的一个服务的一个平台好。首先呢，我们回到Azure的portal里面，在这个坡头里面呢？呃，会有很多的一些呃资资源的一些创建，我们呢，首先还是要去创建一个Azure，去关于机器服务的，呃，资源，我们去选择AI加机器学习，然后呢在这里面定义列，呃，里面的。呃，第一个就是我们的机器学习服务，然后点击创建，那这个收了它就会引导你去做一个Azure的一个机器学习的一个。创建在这里面的话，你可以选择的是原有的资源组或者是自己可以新建一个另外的你可能是要去创建一个机器学习的一个名字。呃，像L demo。哦然后呢，你可以选择你的区域，然后你的存储的账户为什么要有存储呢？因为呃，在里面的话，它可以帮你去保存你的。呃，朱比特的logo还有相关的一些，呃，关于数据的整理啊，呃还有另外的一些相关的。呃，包括说训练的一些操作。还有就是一些，呃，密钥啊啊，这些都是一个非常有用的。当然你需不需要去注册一个容器了啊，也可以默认可以不用啊，在这里我们先不用，然后就开始去创建了。那在创建的过程当中，他会去也是做我们的验证的步骤。稍等，如果验证通过的话你就可以直接的去创建了。当然你的。呃。Azure machine Learning的服务呢呃，已经创建好之后呢，他就会可以告诉你去转到相关的资源里面。那大家可以看得到呃，在这里面的话，他已经把你需要的资源组已经绑定了，当然也在存储的空间还有位置上面都做了一些绑定啊，在这里面你就可以直接的去使用你的Azure machine Learning的一个平台，在这上面的话啊，我们可以根据呃情况呢去点击啊啊，这个工作室里面的URL啊，去跳转到我们的Azure机器服务的一个呃相关的一个连接，那这个时候你就可以根据你的需要。去创建爱你的呃一些公呃，跟机器学习相关的一些工作。举个例子，呃，我们做机器学习可能需要到logo。那你这个时候你可能是要去。呃。做logo的操作啊，在这里面你可以去添加啊新的logo也可以呢。呃，去在sample里面，因为你是要去学习，那你可以在上面去，呃，学习一个，呃，添加一个呃。相关的一个怎么样子去用ml experiment的操作，那这个时候呢，你可以去X sample的一个文件夹里面。啊，去把它克隆到你的本地上面。像举个例子，我在这里是一个Looking费的一个目录啊，是我的名字，然后就克隆。他就可以把呃，sample里面的文件，呃，克隆道理的呃，一个目录上面然后呢在这下面的话好像说我要去。呃，乱我的一个SDK AML的SDK，那我点击他的文件的时候大家可以发现啊，他的M啊，都是英文，比较高大上，但是不怕啊啊。在上面的话呢，呃，都是一些怎么样子去，呃，利用。嗯，这个Azure machine Learning去做一些模型训练的，那这个时候大家知道你需要去做一些相关的一些算力。呃，那你这个收了，他会告诉你你没有去做算力怎么办呢？你要去选择一个，呃，新的一个compute啊啊。在这里面你可以选择的是GPU跟CPU的compute，因为我在这里的话啊，是，呃，有你可以用一个叫做M选择GPU的时候，你可以选择的是，呃，一个M60的一个GPU的一个算力。当然你如果是节省一点的话，因为你有学生账号啊，有100刀的一个，呃，算力的一个支持。那这个时候呢，你可以选择啊，一个GPU啊啊，每个小时来算就1.58美金啊，1.5百558刀啊啊的一个算力啊。所以在这里面的话啊，你可以根据你的需要去做，而且这个呢，你不用的时候把它停掉，它是不算任何费用的。所以呢，你要看你自己的实际情况，当然你可以用CPU CPU的话呢，它有很多的cu的，呃，算力在上面像我在这里的话，我就用了一个叫做DS3 V2的一个。呃，普通的一个CPU，它是0.14刀啊呃四一刀啊呃，作为每个小时的算力那我就在这里创建创建也是虚实，呃，去创建啊。呃，它会创建成功之后就会告诉你哦，这个东西是怎么样子的，嗯。大家可以看得到哈哦你的算力也不需要去投入啊。而且呢，你可以去呃，做很多的一些机器学习相关的工作。另外呢，在这里面我想介绍给大家一个非常好玩的东西，就是他的比赛呢，我们在等待计算嗯的这个算力呃，创启动起来的时候呢，你就可以去看一下这个比赛了，这个比赛呢是什么东西呢？大家知道在Windows上面，嗯，我们可以。很简单的去拖拽一些控件去完成一些Windows的界面啊。在这里面的话呢，你可以通过啊相关的，呃，一个，呃，拖拽呃去完成机器学习里面相关的一些知识的一些创建，像我在这里的话，大家可以看到我，我选择了一个图像识别的操作之后呢，呃，如果你选择这个比赛呢，你可以看到它从图图像集啊到图像的一些转变到图像图片的一些分类。爱到训练，都是通过拖拽去完成的。这样子的话呢，他就让机器学习更加的呃，自动化啊可视化啊。呃，所以呢？呃，通过Azure的机器学习服务了你可以，呃，通过设计器去完成你的机器学习的步骤。另外的也还可以用业界最受欢迎的auto ml去完成相关的任务，也是非常方便可用的。然后我们回到我们的logo去看一下他是不是已经创建完了。好，当我们的算力创建完之后啊，大家可以看得到他会去提醒你哦，这个算力已经创建成功了然后在这个时候呢？呃，大家会担心的是，哎呀我这个算力究竟是用三者环境举个例子，你可以用的是Python 3.6的环境，当然也可以用3.8啊，还有另外的它也支持R的这种算力的一个支持。所以呢，在这里面呢是非常方便的啊，而且你可以通过呃logo的去线上的这个logo呢去添加代码。然后运行。所以呢，通过Azure machine Learning的服务呢？呃，可以让你的机器学习了的呃，学习或者实验的环境呢，得到一个提升。而且是在，呃，不用付费的前提下去完成这个事啊。希望各位同学了啊，马上去尝试一下啊。呃，通过Azure的机器学习服务去完成你的，呃，AI的学习啊，也可以作为学习的环境啊，谢谢大家。")
    # doc = nlp(text)
    print('Entities', [(ent.text, ent.label_) for ent in doc.ents])

Entities [('Azure', 'MicrosoftAzure'), ('机器学习', 'MachineLearning'), ('Azure', 'MicrosoftAzure'), ('机器学习', 'MachineLearning'), ('机器学习', 'MachineLearning'), ('机器学习', 'MachineLearning'), ('Azure', 'MicrosoftAzure'), ('Azure', 'MicrosoftAzure'), ('机器学习', 'MachineLearning'), ('Azure', 'MicrosoftAzure'), ('机器学习', 'MachineLearning'), ('Azure', 'MicrosoftAzure'), ('Azure', 'MicrosoftAzure'), ('机器学习', 'MachineLearning'), ('机器学习', 'MachineLearning'), ('Azure', 'MicrosoftAzure'), ('机器学习', 'MachineLearning'), ('机器学习', 'MachineLearning'), ('Azure', 'MicrosoftAzure'), ('机器学习', 'MachineLearning'), ('机器学习', 'MachineLearning'), ('Looking费的一个目录', 'MachineLearning'), ('Azure', 'MicrosoftAzure'), ('机器学习', 'MachineLearning'), ('机器学习', 'MachineLearning'), ('爱到训练，', 'MachineLearning'), ('机器学习', 'MachineLearning'), ('Azure', 'MicrosoftAzure'), ('机器学习', 'MachineLearning'), ('机器学习', 'MachineLearning'), ('Azure', 'MicrosoftAzure'), ('机器学习', 'MachineLearning'), ('Azure', 'MicrosoftAzure'), ('机器学习', 'MachineLearni

In [9]:
displacy.render(doc, jupyter=True, style='ent')

In [12]:
    nlp.to_disk('./ner_model/')