一个用python写的小脚本
用来分析txt文本里单词出现的频率
重构了软件,使用自然语言处理的文本预处理的方法,增加了删除停用词,词性还原功能(18-01-17)
用正则表达式替换了原来的translate()方法(18-01-15)
完成初版(17-12-03)
- 词性还原,一个单词的多个时态不再单独计数
- 删除停用词,没什么意义,但又很多的词,连词居多
- 词频统计,按出现次数,顺序排列
- 结果输出到文本
- 程序不够模块化
- 白名单功能,根据柯林斯词频分,设置筛选粒度
- 自动加上中文意思
- re
- nltk
- matplotlib