GitHub - 0x404/BIT-NLP-P1: BIT-自然语言理解初步-大作业1

BIT自然语言理解初步大作业一

ner-processed：预处理后，用于命名实体识别的人民日报预料，处理程序见tools\nerPreProcess.py
- 199801-test.txt
- 199801-train.txt
pos-processed：预处理后，用于词性标注的人民日报预料，处理程序见tools\posPreProcess.py
- 199801-test.txt
- 199801-train.txt
- tagSet.txt：所有的标签文件
seg-processed：预处理后，用于分词的微软语料库，处理程序见tools\segPreProcess.py
- msr_train.txt
199801-test.txt ：人民日报测试集，原数据，用于评测词性标注、命名实体识别
199801-train.txt：人民日报训练集，原数据，用于训练词性标注、命名实体识别
199801.txt：人民日报，原数据
dictionary.txt：词典，来源
msr_test.txt：微软语料库，在本次项目中未使用
msr_train.txt：微软语料库，用于训练分词，评测分词算法性能

Name		Name	Last commit message	Last commit date
Latest commit History 56 Commits
data		data
evaluator		evaluator
ner		ner
postagger		postagger
seg		seg
tools		tools
util		util
.gitignore		.gitignore
__init__.py		__init__.py
myNLP.py		myNLP.py
readme.md		readme.md
使用说明.ipynb		使用说明.ipynb