Skip to content

suvvm/BullshitDecoder

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

7 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

TF-IDF算法实现

处理狗屁不通文章生成器文章并提取文章关键词。使用gojieba处理文件进行分词,使用TF-IDF算法提取关键词。

doc1关键词为——宋健
    doc2关键词为——肥迪
    doc3关键词为——肥豪
    doc4关键词为——郭一
    doc5关键词为——房V
    doc6关键词为——朱捞
    doc7关键词为——同德
    doc8关键词为——捞驴
    doc8关键词为——虫虫

运算结果

./resources/doc1.txt:宋健
./resources/doc2.txt:肥迪
./resources/doc3.txt:肥豪
./resources/doc4.txt:郭一
./resources/doc5.txt:V
./resources/doc6.txt:朱捞
./resources/doc7.txt:同德
./resources/doc8.txt:驴
./resources/doc9.txt:虫虫

当前doc5与doc8结果不准确主要原因为gojieba分词不够准确,可以提前对其进行训练,使其词库中出现捞驴、房V即可

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages