GitHub - percent4/multi-label-classification-4-event-type: multi-label-classification-4-event-type

多标签文本分类

数据集

数据来源：2020语言与智能技术竞赛：事件抽取任务

模型训练

模型结构：采用ALBERT对文本进行特征提取，最大文本长度为200，采用的深度学习模型如下：

模型训练效果如下图：

模型评估

本项目采用hamming loss对多标签分类进行评估，结果如下：

              precision    recall  f1-score   support

           0     1.0000    0.9167    0.9565        12
           1     1.0000    0.1250    0.2222         8
           2     1.0000    0.4000    0.5714        10
           3     1.0000    0.6364    0.7778        11
           4     0.9375    0.7895    0.8571        19
           5     0.9355    0.8286    0.8788        35
           6     1.0000    0.8750    0.9333        24
           7     0.9211    0.9333    0.9272       150
           8     1.0000    1.0000    1.0000        36
           9     0.9286    0.8125    0.8667        16
          10     0.5000    0.0667    0.1176        15
          11     1.0000    0.2500    0.4000         4
          12     0.9286    0.8667    0.8966        15
          13     1.0000    0.5000    0.6667        14
          14     0.8333    0.8333    0.8333         6
          15     1.0000    0.8750    0.9333        16
          16     1.0000    0.2500    0.4000         8
          17     0.8936    0.7925    0.8400       106
          18     1.0000    1.0000    1.0000         9
          19     0.9697    0.9697    0.9697        33
          20     0.9697    0.7442    0.8421        43
          21     1.0000    0.8889    0.9412         9
          22     1.0000    1.0000    1.0000        12
          23     0.8667    0.7222    0.7879        18
          24     0.9091    0.7143    0.8000        14
          25     0.9877    0.9091    0.9467        88
          26     1.0000    0.7778    0.8750         9
          27     0.9688    0.9688    0.9688        32
          28     0.9630    0.8966    0.9286        29
          29     0.8571    0.8571    0.8571        21
          30     1.0000    1.0000    1.0000        14
          31     1.0000    0.7000    0.8235        10
          32     1.0000    0.7692    0.8696        13
          33     0.0000    0.0000    0.0000         7
          34     1.0000    0.5556    0.7143         9
          35     1.0000    0.7500    0.8571        16
          36     0.9048    0.7037    0.7917        27
          37     0.9310    0.7714    0.8438        35
          38     0.8545    0.8393    0.8468        56
          39     0.9000    0.8182    0.8571        33
          40     0.9286    0.8125    0.8667        16
          41     0.9665    0.9484    0.9573       213
          42     1.0000    0.9091    0.9524        11
          43     0.7000    0.7778    0.7368        18
          44     1.0000    1.0000    1.0000        11
          45     1.0000    0.7317    0.8451        41
          46     0.9412    0.8421    0.8889        19
          47     0.9091    1.0000    0.9524        10
          48     0.5000    0.2000    0.2857         5
          49     1.0000    0.2308    0.3750        13
          50     0.9333    0.9859    0.9589        71
          51     0.8500    0.7727    0.8095        22
          52     0.9688    0.9688    0.9688        32
          53     1.0000    0.7778    0.8750         9
          54     1.0000    0.7500    0.8571         8
          55     1.0000    0.8889    0.9412         9
          56     0.0000    0.0000    0.0000         7
          57     0.8571    0.5000    0.6316        24
          58     0.0000    0.0000    0.0000         3
          59     1.0000    0.4000    0.5714         5
          60     1.0000    0.9259    0.9615        27
          61     1.0000    1.0000    1.0000        14
          62     1.0000    0.8571    0.9231        14
          63     0.8750    0.7778    0.8235         9
          64     1.0000    0.7500    0.8571         4

   micro avg     0.9424    0.8292    0.8822      1657
   macro avg     0.8983    0.7218    0.7791      1657
weighted avg     0.9308    0.8292    0.8669      1657
 samples avg     0.8675    0.8496    0.8517      1657
accuracy:  0.7983978638184246
hamming loss:  0.0037691280681934887

模型预测

在新数据上进行预测，结果如下：

预测语句: 北京时间6月7日，中国男足在广州天河体育场与菲律宾进行了一场热身赛，最终国足以2-0击败了对手，里皮也赢得了再度执教国足后的首场比赛胜利！预测事件类型: 竞赛行为-胜负

预测语句: 巴西亚马孙雨林大火持续多日，引发全球关注。预测事件类型: 灾害/意外-起火

预测语句: 19里加大师赛资格赛前两天战报中国选手8人晋级6人遭淘汰2人弃赛预测事件类型: 竞赛行为-晋级

预测语句: 日本电车卡车相撞，车头部分脱轨并倾斜，现场起火浓烟滚滚预测事件类型: 灾害/意外-车祸

预测语句: 截止到11日13：30 ，因台风致浙江32人死亡，16人失联。具体如下：永嘉县岩坦镇山早村23死9失联，乐清6死，临安区岛石镇银坑村3死4失联，临海市东塍镇王加山村3失联。预测事件类型: 人生-失联|人生-死亡

预测语句: 定位B端应用，BeBop发布Quest专属版柔性VR手套预测事件类型: 产品行为-发布

预测语句: 8月17日。凌晨3点20分左右，济南消防支队领秀城中队接到指挥中心调度命令，济南市中区中海环宇城往南方向发生车祸，有人员被困。预测事件类型: 灾害/意外-车祸

预测语句: 注意！济南可能有雷电事故｜英才学院14.9亿被收购｜八里桥蔬菜市场今日拆除，未来将建新的商业综合体预测事件类型: 财经/交易-出售/收购

预测语句: 昨天18：30，陕西宁强县胡家坝镇向家沟村三组发生山体坍塌，5人被埋。当晚，3人被救出，其中1人在医院抢救无效死亡，2人在送医途中死亡。今天凌晨，另外2人被发现，已无生命迹象。预测事件类型: 人生-死亡|灾害/意外-坍/垮塌

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
.idea		.idea
__pycache__		__pycache__
albert_zh		albert_zh
data		data
.gitignore		.gitignore
README.md		README.md
att.py		att.py
data_analysis.py		data_analysis.py
event_type.json		event_type.json
loss_acc.png		loss_acc.png
model_evaluate.py		model_evaluate.py
model_predict.py		model_predict.py
model_train.py		model_train.py
multi-label-model.png		multi-label-model.png
requirements.txt		requirements.txt

percent4/multi-label-classification-4-event-type

Folders and files

Latest commit

History

Repository files navigation

多标签文本分类

数据集

模型训练

模型评估

模型预测

About

Resources

Stars

Watchers

Forks

Languages