parse_words_frequency/README.md at master · Hangyi/parse_words_frequency · GitHub

Parse_words_frequency

一个用python写的小脚本

用来分析txt文本里单词出现的频率

更新日志

重构了软件，使用自然语言处理的文本预处理的方法，增加了删除停用词，词性还原功能（18-01-17）

用正则表达式替换了原来的translate()方法（18-01-15）

完成初版（17-12-03）

功能/特性

词性还原，一个单词的多个时态不再单独计数
删除停用词，没什么意义，但又很多的词，连词居多
词频统计，按出现次数，顺序排列
结果输出到文本

TODO

程序不够模块化
白名单功能，根据柯林斯词频分，设置筛选粒度
自动加上中文意思

依赖

re
nltk
matplotlib