Skip to content
/ tarpan Public

tarpan,欧洲野马,于1877年灭绝。在这里是自主实现的中文细粒度情感分析程序,能够给出词语、句子、段落的具体得分。

License

Notifications You must be signed in to change notification settings

sekift/tarpan

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

35 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

🎨 Tarpan

European Wild Horse(Tarpan),欧洲野马于1877年灭绝。 在这里是自主实现的中文细粒度情感分析程序,能够给出词语、句子、段落的具体得分。

📦 更新

2021/02/26 更新

  1. 🆕 新增百度对评论的分析结果,新增百度情感倾向试用结果。
  2. 🔧 新增和修改词典。

2021/02/24 更新

  1. 🆕 新版的情感得分程序基本完成,增加情感倾向值。
  2. 🆕 更新情感词典。

2021/02/01 更新

  1. ⚡ 优化代码,整改文件读取。
  2. 🆕 增加stanford本地分词和依存关系程序,见:https://github.com/sekift/tarpan-nlp
  3. 🆕 着手编码新版的情感得分程序。

2019/05/29 首发

  1. 🎉 基本功能搭建,旧版情感得分程序完成。
  2. 🎉 句子依存关系仅从网站处获得。

🤖 分析测试

查看doc目录下的:"ChnSentiCorp情感分析酒店评论"目录
文件说明:

  1. negall.txt 标记为负面的文档,一行一条评论

  2. negall-goop-result.txt 旧版情感得分对负面文档的分析结果,格式为:行数|总得分|部分得分|情感词语|原句

  3. negall-comp-result.txt 新版情感得分对负面文档的分析结果,格式为:行数|正倾向|负倾向|总得分|原句|部分得分|情感词语

  4. negall-baidu-result.txt 百度对负面文档的情感倾向结果,格式为:行数|正向倾向|负向倾向|置信区间|原句

  5. negall-baidu-comp-diff.txt 百度与本程序对负面文档分析对比,格式为:行数|百度正向|百度负向|百度置信度|本程序正向|本程序负向

  6. posall.txt 标记为正面的文档,一行一条评论

  7. posall-goop-result.txt 旧版情感得分对正面文档的分析结果,格式为:行数|总得分|部分得分|情感词语|原句

  8. posall-comp-result.txt 新版情感得分对正面文档的分析结果,格式为:行数|正倾向|负倾向|总得分|原句|部分得分|情感词语

  9. posall-baidu-result.txt 百度对正面文档的情感倾向结果,格式为:行数|正向倾向|负向倾向|置信区间|原句

  10. posall-baidu-comp-diff.txt 百度与本程序对正面文档分析对比,格式为:行数|百度正向|百度负向|百度置信度|本程序正向|本程序负向

📝 结果对比

1、正面评论对比

总条数:1018 正面倾向 负面倾向
百度分析平均值 0.795496 0.204504
本程序新版平均值 0.758896 0.23908
0.0366 -0.03458
均方差 11.33469 11.2074
本程序旧版平均值 0.755621 0.244378

2、负面评论对比

总条数:1628 正面倾向 负面倾向
百度分析平均值 0.032041 0.967958
本程序新版平均值 0.333064 0.665693
-0.301023 0.302266
均方差 15.57135 15.5491
本程序旧版平均值 0.308675 0.691324

结论:在正面上两者相差不到,但负面上相差较大,不过我觉得是百度倾向过重了。
百度情感倾向也有不少错误的情况,具体请看doc下的《百度情感倾向试用结果》文档。

🌰 分词使用斯坦福CoreNLP

🔗 相关项目:https://github.com/sekift/tarpan-nlp

💻 应用

现在用在歌词情感分析上,参考项目:https://github.com/sekift/quelili

🌈 缺点

  1. 无法识别反话,某些词识别不足,得分有所偏差。

About

tarpan,欧洲野马,于1877年灭绝。在这里是自主实现的中文细粒度情感分析程序,能够给出词语、句子、段落的具体得分。

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages