使用说明: from mypack.util.ictclas import ICTclas ic = ICTclas( text ) ic.finger() #返回text的指纹 ic.words() #返回list:[(word,num),(word,num),…]
使用说明: from mypack.util.smallseg.myseg import seg word_nums = seg( text ) #返回list:[(word,num),(word,num),…]
BeautifulSoup.py 开源的html析取程序,网上文档:http://www.crummy.com/software/BeautifulSoup/documentation.zh.html
使用说明: pr = Parser() if pr.parse( url ): print pr.get_html() #返回网页的html格式 print pr.get_text().encode(‘utf-8’) #返回网页中的字符串
- df_tb 格式如下,book为word在book类的文档频率(int),total为各类的df之和,为word的总df: word|book|edu|finance|house|mil|sport|car|ent|game|lady|mobile|tech|total
- min_df
- config.py中设置所有的变量
- 执行db/create.py,创建数据库表
- 爬取url
- 执行chi模块:去低频词、卡方值计算、idf值计算
from mypack.classfiy.preprocess.chi import chi_compute chi_compute()
- 执行卡方特征选择,构建新字典
from mypack.classify.preprocess.voca import read_voca,transform_samples voca = read_voca() transform_samples( voca )
- 预测
from mypack.classify.svm.predict import classify_text#对文本进行分类 from mypack.classify.svm.predict import classify_text#对url进行分类
字典和已经训练好的svm 模型放在data/下 如果要自己训练的话,自己下libsvm。liblinear用python不方便调用。
from mypack.web_content_extract.extract import Extractor extr = Extractor( url ) if extr.is_content_page(): #判断是否是正文页面 text = extr.get_content() # 提取正文 html = extr.get_content_with_format() #带html标签的正文 images = extr.get_images() # 提取正文中的图片 title = extr.get_title() # 提取正文的标题 confidence = extr.get_confidence() #是正文的置信度 extr.get_detail()#详细分析信息