Skip to content

HTTPS clone URL

Subversion checkout URL

You can clone with
or
.
Download ZIP
基于统计的自带分类器by c/c++
Shell C SuperCollider JavaScript C++ PHP Other
Branch: master

Fetching latest commit…

Cannot retrieve the latest commit at this time

Failed to load latest commit information.
.metadata
bin
doc
etc
scws-1.2.0
show
src
CMakeLists.txt
README.md
test

README.md

SDMP:simple data mining plane.基于统计的文本分类工具。(马尔科夫算法) 一.使用说明 1.库支持。 Scws-1.2.0 http://www.ftphp.com/scws/down/scws-1.2.0.tar.bz2 2.配置文件说明 (1)配置文件: ./etc/conf.ini [database]#数据库配置。此处为mysql host=localhost user=root passwd=111111 db=yqtests [policy] #分词策略配置 dict="/usr/local/scws/etc/dict.utf8.xdb" #词典位置 dict_rule="/usr/local/scws/etc/rules.utf8.ini" #词典新加规则未知 fe_policy="nr,nz,ns,nt,n,vn,v" #特征提取策略 (2)特征提取策略 特征的概念:每个文本用一组特征向量来表征该文本。具体为在该文本中具有代表意义的词汇。应当过滤去没有意义的词语。如“的”“恩”等 根据不同的分类需求,应当对文档的特征提取采取不同定制。 比如,若分类目标为情感判定,则特征的定制以形容词为主。如分类目标为事件,则以动词和名词等为主。可以按照分类效果调整。 词典词性标注详解: ---- 附北大词性标注版本 ---- 见最后。 (3)训练集格式 1.存储于文件 ./etc/train/traindata.ini

[class1]#[]中存储类别 id1=doc1#存储该类别所属的doc id2=doc2 ....... [class2] id1=doc1 id2=doc2 ...... 2.存储于数据库 数据库中设置两个字段,分别为doc和class。并从中读取。 3.安装说明 源码采取cmake Out-of-source build方式编译 cmake -DCMAKE_INSTALL_PREFIX=? .. make sudo make install 默认路径为/usr/local/

4.使用说明 (1) 命令 处理数据的方式有两种。 方法一为把训练集存储于数据库中。每次存取都通过数据库。 方法二为数据放在文件中,每次程序初始运行都把所有数据一次加载到内存。(内存中是一个hash表) 提供两个命令 classify ----执行分类
train -----执行训练

-h--------查看帮助 -w mem ------ 方法二 -w db ------ 方法一 默认为mem (2)展示demon 运行python /show/code.py 打开0.0.0.0:8080

二.设计思路概要 大部分实现都是面向接口,这就意味着,其中一方的组件改变或者替换,只需要重新针对该接口实现之。尽量降低耦合度。 1.特征提取 该模块接口利用scws-1.2.0分词后实现。 2.数据接口 所有的训练结果在运算的时候,可以放在数据库里,也可以一次性加载到内存中。 在内存中为hash_map。所以,还应该实现hash_map对象的持久化。 hash_map<-------->file 3.分类算法 1.基于Naive Bayes 2.基于fisher(待完成)

Something went wrong with that request. Please try again.