Skip to content

Latest commit

 

History

History
43 lines (24 loc) · 780 Bytes

README.md

File metadata and controls

43 lines (24 loc) · 780 Bytes

Parse_words_frequency

一个用python写的小脚本

用来分析txt文本里单词出现的频率


更新日志

重构了软件,使用自然语言处理的文本预处理的方法,增加了删除停用词,词性还原功能(18-01-17)

用正则表达式替换了原来的translate()方法(18-01-15)

完成初版(17-12-03)


功能/特性

  • 词性还原,一个单词的多个时态不再单独计数
  • 删除停用词,没什么意义,但又很多的词,连词居多
  • 词频统计,按出现次数,顺序排列
  • 结果输出到文本

TODO

  • 程序不够模块化
  • 白名单功能,根据柯林斯词频分,设置筛选粒度
  • 自动加上中文意思

依赖

  • re
  • nltk
  • matplotlib