1.鉴于豆瓣分类书目,按照评价排序的话,同一类别,超过1000评价的书,不超过400本。 而面对豆瓣网的反爬虫机制,本程序即使不采取任何应对反爬虫的措施,也可以下载500个网页, 所以得到的结果是相对准确的。 2.使用方法:首先使用MyCrawlerByThread下载需要的网页, 然后使用ExtractInfoByThread解析和提取网页信息, 然后使用txt2excel将结果转化为excel格式。 3.results文件夹保存了运行结果。其中,三个文件夹分别保存了互联网,算法,编程三个主题的下载的网页。 三个xls文件分别保存了解析出来的结果。然后从结果中取出评论超过1000的书目。合并成“合并.xls”,然后 根据评分进行排序,取前100条记录,得到“answer.xls" 4.结果保存在results文件夹下面的answer.xls中。
-
Notifications
You must be signed in to change notification settings - Fork 0
CarlosJones/WebSpider
About
No description, website, or topics provided.
Resources
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published