Skip to content

zwt0204/NER_MODEL

Repository files navigation

中文命名实体识别

主要涉及方法:CRF、BILSTM+CRF、IDCNN+CRF、BILSTM+CNN+CRF、Lattice-LSTM、Transformer+CRF、ALBERT+BILSTM+CRF

CRF

BILSTM+CRF

  • 数据格式:{'text':'肯德基在哪里', 'label':'B-PRO I-PRO O O'}
  • 目前主流的套路,深度学习+CRF,通过BILSTM抽取特征再结合CRF,不过BILSTM是序列模型,数据量上去之后训练速度会比较慢。

IDCNN+CRF

BILSTM+CNN+CRF

  • 数据格式:{'text':'肯德基在哪里', 'label':'B-PRO I-PRO O O'}
  • 在BILSTM的基础上加入CNN抽取特征,CNN对文本来说相当于抽取n-gram特征
  • tensorflow中crf

Lattice-LSTM

Transformer+CRF

ALBERT+BILSTM+CRF

  • 数据格式:{'text':'肯德基在哪里', 'label':'B-PRO I-PRO O O'}
  • 通过ALBERT引入预训练信息来丰富语义信息
  • 增加albert_tiny

近期论文

  • Hierarchically-Refined Label Attention Network for Sequence Labeling (EMNLP 2019) papercode - LAN
  • TENER: Adapting Transformer Encoder for Named Entity Recognition (CoRR 2019) papercode

About

命名实体识别

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published