Active-Learning-for-NER

本项目在模型BiLSTM-CRF上实现了一部分基于不确定性的主动学习算法，其中实现的样本选择策略包括MNLP、LC、TTE、TE。

数据集

数据集包括中文和英文两类命名实体识别数据集。

中文数据集使用的是细粒度的CLUENER数据集，https://github.com/CLUEbenchmark/CLUENER2020

英文数据集使用的是CoNLL-2003

预训练词向量

中文预训练词向量来自Chinese-Word-Vectors中使用人名日报数据集训练出的词向量，https://github.com/Embedding/Chinese-Word-Vectors

英文预训练词向量使用glove.840B.300d

模型结构

BiLSTM-CRF，见文件networks.py

实现的样本选择策略

MNLP[1]、LC[2]、TTE[2]、TE[2]

使用方法

$python run.py

Prerequisites

python 3.6
tensorflow 1.13.1
numpy 1.16.5
keras-preprocessing 1.1.0

本项目所使用的主动学习流程

使用部分样本训练最初的模型；
使用样本选择策略选择样本；
将选择好的样本加入到训练集中；
重复1-3过程，直到总样本数量达到指定值(由参数total_num决定)；
使用最终选择出的样本重新训练整个模型；

参考文献

[1] Deep active learning for named entity recognition

[2] An Analysis of Active Learning Strategies for Sequence Labeling Tasks

Name		Name	Last commit message	Last commit date
Latest commit History 12 Commits
data		data
.gitignore		.gitignore
README.md		README.md
active_learning.py		active_learning.py
active_utils.py		active_utils.py
configs.py		configs.py
embedding_clip.py		embedding_clip.py
enums.py		enums.py
model.py		model.py
networks.py		networks.py
run.py		run.py
tf_metrics.py		tf_metrics.py
utils.py		utils.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Active-Learning-for-NER

数据集

预训练词向量

模型结构

实现的样本选择策略

使用方法

Prerequisites

本项目所使用的主动学习流程

参考文献

About

Releases

Packages

Languages

bqw18744018044/Active-Learning-for-NER

Folders and files

Latest commit

History

Repository files navigation

Active-Learning-for-NER

数据集

预训练词向量

模型结构

实现的样本选择策略

使用方法

Prerequisites

本项目所使用的主动学习流程

参考文献

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages