Skip to content

Hangyi/parse_words_frequency

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

8 Commits
 
 
 
 
 
 

Repository files navigation

Parse_words_frequency

一个用python写的小脚本

用来分析txt文本里单词出现的频率


更新日志

重构了软件,使用自然语言处理的文本预处理的方法,增加了删除停用词,词性还原功能(18-01-17)

用正则表达式替换了原来的translate()方法(18-01-15)

完成初版(17-12-03)


功能/特性

  • 词性还原,一个单词的多个时态不再单独计数
  • 删除停用词,没什么意义,但又很多的词,连词居多
  • 词频统计,按出现次数,顺序排列
  • 结果输出到文本

TODO

  • 程序不够模块化
  • 白名单功能,根据柯林斯词频分,设置筛选粒度
  • 自动加上中文意思

依赖

  • re
  • nltk
  • matplotlib

About

a script to parse words frequency in txt

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages