面向金融领域的事件主体抽取(ccks2019,https://biendata.com/competition/ccks_2019_4/ ),一个baseline
用BiLSTM+指针结构标注实体。
实际上这个比赛就是阅读理解竞赛SQUAD 1.0的简化版:它要输入“一段文本”+“事件类型”,输出文本中的实体,如果将“事件类型”看成问题,将“一段文本”看作是篇章,那么它就跟squad 1.0的格式一模一样了,任何squad的模型都可以简化后用到这个问题上。
python ee.py
即可。gtx 1060上30秒训练一个epoch(包括验证时间)。
取决于验证集划分的不同,线下验证集的acc大概是0.76+左右。
亲测线上提交可以达到0.83+,如果你的解码规则写得好,估计可以到0.84+。
Python 2.7 + Keras 2.2.4 + Tensorflow 1.8,其中关系最大的应该是Python 2.7了,如果你用Python 3,需要修改几行代码,至于修改哪几行,自己想办法,我不是你的debugger。
欢迎入坑Keras。人生苦短,我用Keras~
欢迎测试、修改使用,但这是我比较早的模型,文件里边有些做法在我最新版已经被抛弃,所以以后如果发现有什么不合理的地方,不要怪我故意将大家引入歧途就行了。
欢迎跟我交流讨论,但请尽量交流一些有意义的问题,而不是debug。(如果Keras不熟悉,请先自学一个星期Keras。)
特别强调:baseline的初衷是供参赛选手测试使用,如果你已经错过了参赛日期,但想要训练数据,请自行想办法向主办方索取。我不负责提供数据下载服务。